« Home « Kết quả tìm kiếm

Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu


Tóm tắt Xem thử

- NGUYỄN TRUNG TUẤN NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU Chuyên ngành: Đảm bảo toán học cho máy tính và hệ thống tính toán Mã số TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2012 Công trình được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1.
- [CT3] Nguyễn Trung Tuấn, Nguyễn Ngọc Bình, Huỳnh Quyết Thắng, Tự động xác định trọng số trong độ đo tương tự hỗn hợp với tiếp cận lý thuyết tập thô, Chuyên san "Các công trình Nghiên cứu, Phát triển và Ứng dụng Công nghệ thông tin và Truyền thông", Tập V-1, Số .
- [CT6] Nguyễn Trung Tuấn, Độ đo tương tự hỗn hợp có trọng số MSM-R và một số kết quả thực nghiệm với bài toán phân lớp dữ liệu, Tạp chí Tin học và điều khiển học, Tạp chí Tin học và điều khiển học, Số 2, tập 28, 2012, p 161-170.
- Chính vì vậy, khối lượng dữ liệu con người thu thập được thông qua các hoạt động kinh tế - xã hội ngày càng lớn, hình thành nên những nhà kho dữ liệu có dung lượng hàng terabyte, các hệ thống máy tính được kết nối mạng với nhau làm cho các dữ liệu ngày càng trở nên phong phú và phức tạp.
- Trong bối cảnh đó, con người được máy tính hỗ trợ quản lý và lưu trữ dữ liệu có dung lượng khổng lồ nhưng khả năng phân tích, hiểu được những ngữ nghĩa, tri thức ẩn chứa trong đó còn rất hạn chế.
- Một trong các lĩnh vực đang được nghiên cứu, ứng dụng mạnh mẽ trong khai thác, phân tích dữ liệu ngày nay là Phát hiện tri thức và khai phá dữ liệu.
- Trong thực tế, để thể hiện thông tin của các đối tượng, các hiện tượng hay vấn đề nào đó người ta phải sử dụng kết hợp nhiều loại dữ liệu khác nhau cùng lúc như kiểu dữ liệu số, dữ liệu định danh, dữ liệu định danh có thứ tự.
- Bài toán đặt ra là làm thế nào để kết hợp các thuộc tính lại với nhau để giải quyết tốt nhất các bài toán cơ bản trong khai phá dữ liệu như Phân lớp, Phân cụm.
- Trong các bài toán đó, điểm mấu chốt là phải xác định được một độ đo khoảng cách hoặc độ đo tương tự/không tương tự cho các đối tượng cần xem xét.
- Với các dữ liệu thuần nhất hiện đã có nhiều độ đo được đề xuất, mỗi độ đo này có một ý nghĩa riêng và tuỳ thuộc theo lĩnh vực bài toán áp dụng cũng như đặc tính của loại dữ liệu.
- Việc chuyển đổi các dạng dữ liệu khác nhau về cùng một loại trong khi tính toán độ tương tự có thể dẫn đến sai khác về ý nghĩa hay mất mát thông tin.
- Đồng thời, mỗi loại dữ liệu khác nhau sẽ có ý nghĩa khác nhau nên không thể kết hợp chúng lại trong cùng một độ đo một cách đơn thuần.
- 1 Vì những lý do đó, đề tài của luận án này nhằm nghiên cứu độ đo tương tự hỗn hợp hoặc độ đo khoảng cách hỗn hợp giữa các đối tượng để có thể xử lý dữ liệu dưới dạng hỗn hợp mà không cần thiết phải chuyển đổi các dạng dữ liệu, như vậy sẽ tránh được mất mát thông tin.
- Mục đích nghiên cứu của luận án Qua quá trình tìm hiểu, nghiên cứu về phát hiện tri thức và khai phá dữ liệu, đặc điểm của các loại dữ liệu và đặc biệt là độ đo tương tự hỗn hợp, tác giả nhận thấy độ đo tương tự hỗn hợp hay độ đo khoảng cách hỗn hợp đóng vai trò rất quan trọng trong các bài toán khai phá dữ liệu dựa trên khoảng cách.
- Vì vậy, mục đích của luận án là nghiên cứu nhằm tìm ra hoặc cải tiến các phương pháp, các kỹ thuật tính toán độ đo tương tự hỗn hợp áp dụng trong bài toán phân lớp dữ liệu một cách hiệu quả, thực hiện các thực nghiệm trên các bộ dữ liệu chuẩn dùng để nghiên cứu phát hiện tri thức và khai phá dữ liệu, thực nghiệm trên bộ dữ liệu kinh tế - xã hội thực tế của Việt Nam.
- Đối tượng, phạm vi nghiên cứu Nghiên cứu các vấn đề cơ bản của phát hiện tri thức và khai phá dữ liệu.
- độ đo tương tự và độ đo tương tự hỗn hợp.
- bài toán phân lớp, phân cụm trong phát hiện tri thức và khai phá dữ liệu.
- Các nội dung nghiên cứu sẽ được thử nghiệm trên một số bộ dữ liệu của cộng đồng nghiên cứu phát hiện tri thức và khai phá dữ liệu trên internet và các dữ liệu kinh tế - xã hội của Việt Nam.
- Phương pháp nghiên cứu Tác giả sử dụng phương pháp khảo sát các vấn đề cần nghiên cứu, so sánh, phân tích dựa trên những lý thuyết cơ bản của các lĩnh vực như: phát hiện tri thức và khai phá dữ liệu.
- Các đề xuất của tác giả sẽ được kiểm nghiệm bằng các dữ liệu chuẩn được công bố cho cộng đồng nghiên cứu sử dụng và các dữ liệu kinh tế - xã hội thực tế của Việt Nam.
- Điểm mới của luận án là đưa ra phương pháp tự động xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, đóng góp này được thể hiện trong Chương 2 của luận án.
- Khi phân tích các dữ liệu thực tế, các đối tượng thường được thể hiện bằng một bộ các dữ liệu có nhiều kiểu khác nhau hay nói cách khác là tồn tại dưới dạng hỗn hợp.
- Trong các phương pháp xử lý truyền thống người ta thường phải chuyển đổi dữ liệu về cùng một dạng để thực hiện phân tích, đồng thời việc xác định trọng số cho các thuộc tính dữ liệu thường phụ thuộc vào kinh nghiệm và các yếu tố chủ quan của người nghiên cứu, chính vì thế, tác giả đã đề xuất một phương pháp tự động xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp với tiếp cận lý thuyết tập thô để có thể áp dụng trên các dữ liệu loại này.
- Ở đây, tác giả sử dụng lý thuyết tập thô để xác định trọng số cho các thuộc tính do trong lý thuyết tập thô cho phép tìm được mối quan hệ giữa các thuộc tính, đây cũng là một hướng ứng dụng mới của lý thuyết tập thô trong các bài toán phát hiện tri thức và khai phá dữ liệu.
- Độ đo tương tự hỗn hợp có trọng số được xác định tự động dựa trên lý thuyết tập thô được tính toán một cách gián tiếp thông qua một độ đo khoảng cách thoả mãn các tiên đề metric cho các đối tượng, đây là một điểm mới của luận án, là sự khác biệt so với độ đo tương tự hỗn hợp do Goodall đề xuất trước đây.
- Thực hiện và đánh giá các thực nghiệm với độ đo tương tự hỗn hợp có trọng số được xác định tự động bằng lý thuyết tập thô do tác giả đề xuất trong bài toán phân lớp dữ liệu, so sánh các kết quả phân lớp này với kết quả phân lớp khi dùng độ đo do Goodall đề xuất và kết quả phân lớp bằng cây quyết định.
- Tác giả cũng thực hiện thử nghiệm bước đầu cho bài toán phân cụm dữ liệu sử dụng độ đo tương tự hỗn hợp có trọng số này.
- Thông qua các kết quả thử nghiệm về phân lớp bằng thuật toán láng giềng gần nhất với các bộ dữ liệu chuẩn trên Internet và các bộ dữ liệu thực tế kinh tế - xã hội Việt Nam, qua việc đánh giá tác động của số lượng thuộc tính theo các kiểu dữ liệu khác 3 nhau đối với độ đo cho thấy độ chính xác phân lớp tương đương hoặc tốt hơn so với phương pháp của Goodall và cây quyết định.
- Ngoài các ưu điểm về độ chính xác phân lớp, phương pháp sử dụng độ đo tương tự hỗn hợp có trọng số được xác định một cách tự động dựa trên lý thuyết tập thô cho phép thực hiện phân lớp một cách tự động mà không yêu cầu phải có sự can thiệp của chuyên gia để xác định trọng số cho các thuộc tính cũng như không cần phải chuyển đổi dữ liệu về cùng một dạng theo các phương pháp phân tích thông thường, đây là điểm khác biệt so với các phương pháp truyền thống.
- Các bài toán thứ cấp từ bài toán phân lớp dữ liệu bằng thuật toán láng giềng gần nhất là các bài toán dự báo trong kinh tế xã hội, bài toán xử lý dữ liệu khuyết, tìm kiếm dữ liệu cũng có thể được thực hiện tốt khi sử dụng độ đo tương tự hỗn hợp này.
- Những vấn đề lý luận chung Chương này trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá dữ liệu, tóm lược các nội dung cơ bản của lý thuyết tập thô để làm nền tảng lý thuyết cho các đề xuất tính toán trọng số trong độ đo tương tự hỗn hợp của chương 2.
- Chương 1 cũng trình bày tổng quan những nghiên cứu về độ đo tương tự, độ đo tương tự hỗn hợp và bài toán khai phá dữ liệu kinh tế - xã hội trong nước và quốc tế từ đó cho thấy tính cấp thiết phải sử dụng các kỹ thuật phát hiện tri thức và khai phá dữ liệu đồng thời với việc sử dụng độ đo tương tự hỗn hợp trong các bài toán này.
- Nghiên cứu độ đo tương tự hỗn hợp trong phát hiện tri thức từ dữ liệu Chương này trình bày về độ đo tương tự hỗn hợp theo phương pháp truyền thống và độ đo tương tự hỗn hợp của Goodall.
- Tác giả đề xuất 4 phương pháp tự động xác định trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, thử nghiệm độ phức tạp tính toán của thuật toán xác định trọng số tự động trong độ đo tương tự hỗn hợp, quy trình sử dụng độ đo tương tự hỗn hợp có trọng số này.
- Thử nghiệm độ đo MSM-R trong bài toán phân lớp và phân cụm dữ liệu Tác giả trình bày về bài toán phân lớp dữ liệu với thuật toán láng giềng gần nhất có sử dụng độ đo MSM-R, áp dụng thử nghiệm phân lớp cho các bộ dữ liệu mẫu trên Internet.
- Trong chương tác giả cũng giới thiệu tóm tắt về các đặc trưng của dữ liệu kinh tế - xã hội, trích lọc dữ liệu, đồng thời thử nghiệm phân lớp dữ liệu kinh tế - xã hội và so sánh kết quả với phương pháp phân lớp sử dụng độ đo Goodall, phân lớp bằng cây quyết định và phương pháp phân lớp truyền thống bằng phần mềm SPSS.
- Đối với bài toán phân cụm, tác giả cũng đã thử nghiệm và trình bày một số kết quả bước đầu về phân cụm dữ liệu kinh tế - xã hội Việt Nam.
- Nội dung chính của chương bao gồm những khái niệm, các kỹ thuật, ứng dụng và những vấn đề cần nghiên cứu trong phát hiện tri thức và khai phá dữ liệu.
- Trong chương tác giả cũng tóm lược lại những nội dung cơ bản trong lý thuyết tập thô như khái niệm về hệ thống thông tin, hệ quyết định, quan hệ tương đương, xấp xỉ tập hợp, sự phụ thuộc giữa các thuộc tính.
- để làm cơ sở cho việc đề xuất phương pháp tính trọng số cho các thuộc tính một cách tự động trong độ đo tương tự hỗn hợp sẽ được trình bày tại Chương 2.
- Những kiến thức tổng quan về độ đo tương tự, độ đo tương tự hỗn hợp và những nghiên cứu trong và ngoài nước liên quan đến mục tiêu của luận án cũng được tác giả trình bày tóm tắt trong chương này.
- Chương 1 được bố cục gồm 6 mục, mục kế tiếp sẽ đề cập đến những vấn đề cơ bản về phát hiện tri thức và khai phá dữ liệu.
- Mục 4 trong chương trình bày tổng quan về độ đo tương tự, mô hình độ đo tương tự và độ đo tương tự hỗn hợp.
- 1.2 Phát hiện tri thức và khai phá dữ liệu Phát hiện tri thức và khai phá dữ liệu là một lĩnh vực phát triển rất nhanh chóng, đây là lĩnh vực giao thoa giữa hệ cơ sở dữ liệu, thống kê, học máy và các lĩnh vực liên quan khác nhằm trích rút ra những tri thức hữu ích từ những tập dữ liệu rất lớn.
- Phát hiện tri thức và khai phá dữ liệu là quá trình tự động trích rút các tri thức (knowledge) hoặc các mẫu (pattern), mô hình (model) có đặc điểm không tầm thường, ẩn, chưa biết trước, có khả năng sử dụng và hiểu được từ khối lượng lớn dữ liệu.
- 6 Khai phá dữ liệu (Data mining) là một khâu trong quá trình khám phá tri thức mà trong đó ta có thể áp dụng những thuật toán khai phá dữ liệu với những giới hạn có thể chấp nhận được về độ phức tạp tính toán để tìm ra những mẫu hình hoặc mô hình trong dữ liệu.
- Như vậy mục đích của phát hiện tri thức và khai phá dữ liệu là để tìm ra những mẫu và/hoặc những mô hình chứa đựng trong cơ sở dữ liệu mà nó bị ẩn đi trong khối dữ liệu rất lớn.
- Hiển nhiên là đối với một số phần tử, thông tin của chúng có thể tương tự nhau và do đó các phần tử này không thể phân biệt được một cách rõ ràng nếu chỉ nhìn từ thông tin về chúng.
- Qua đó, một loạt các khái niệm và những vấn đề liên quan được trình bày như xấp xỉ tập hợp, rút gọn, quan hệ giữa các thuộc tính.
- 1.4 Tổng quan về độ đo tương tự và độ đo tương tự hỗn hợp Nội dung trong phần này được tác giả trình bày về mô hình độ đo tương tự, vai trò của độ đo tương tự trong các bài toán như tìm kiếm, phân cụm, phân lớp của phát hiện tri thức và khai phá dữ liệu.
- Tác giả cũng trình bày về độ đo khoảng cách hỗn hợp và độ đo tương tự hỗn hợp cho các đối tượng được thể hiện bằng một tập các thuộc tính có kiểu dữ liệu khác nhau như thuộc tính số, thuộc tính định danh.
- Trong khoa học máy tính, thiết kế hàm khoảng cách/hàm tương tự là cốt lõi của 7 nhiều ứng dụng khai phá dữ liệu quan trọng.
- Chất lượng của kết quả các hàm khoảng cách/hàm tương tự ảnh hưởng đáng kể đến sự thành công của ứng dụng tương ứng trong việc tìm kiếm các kết quả.
- 1.5 Tổng quan các nghiên cứu về đề tài luận án Phát hiện tri thức và khai phá dữ liệu là lĩnh vực nghiên cứu mới trên thế giới cũng như tại Việt Nam.
- để xử lý có hiệu quả lượng dữ liệu lớn, xử lý song song, khai phá và phân loại văn bản, giải quyết các bài toán về phân tích dữ liệu trực tuyến.
- Trong các nghiên cứu đó, đã có một số nghiên cứu về độ đo tương tự và độ đo tương tự hỗn hợp trong các bài toán phát hiện tri thức và khai phá dữ liệu.
- Dưới đây tác giả tóm lược những nghiên cứu điển hình về độ đo tương tự hỗn hợp.
- Năm 1966, Goodall (1966) đã đưa ra phương pháp tính độ tương tự hỗn hợp cho các đối tượng với cơ sở toán học chặt chẽ nhằm áp dụng cho bài toán phân loại thực vật.
- Trong phương pháp tính độ tương tự hỗn hợp của Goodall, các đối tượng trong một tập đối tượng được thể hiện bằng các một tập các thuộc tính có kiểu dữ liệu số, định danh và định danh có thứ tự.
- Goodall thực hiện tính độ tương tự cho hai đối tượng trên từng loại thuộc tính riêng biệt bằng cách tính xác suất xuất hiện các giá trị của từng thuộc tính của đối tượng trên toàn bộ tập đối tượng với tư tưởng giá trị nào của thuộc tính ít xuất hiện sẽ đóng vai trò quan trọng hơn so với giá trị khác của thuộc tính để tạo ra quan hệ sắp xếp thứ tự cho giá trị thuộc tính, sau đó, Goodall kết hợp các giá trị tương tự riêng cho từng thuộc tính vào trong một giá trị tương tự hỗn hợp cho hai đối tượng.
- Việc tính toán độ tương tự hỗn hợp này có độ phức tạp lớn.
- Một nhược điểm khác của độ tương tự hỗn hợp này là khi muốn tìm độ tương tự của một đối tượng so với một đối tượng khác trong một tập huấn luyện, ta phải đưa đối tượng này vào tập huấn luyện để tính toán, đồng thời, độ đo tương tự hỗn hợp của Goodall không phải là độ đo thoả mãn các tiên đề metric (tác giả sẽ chỉ rõ điểm này trong chương 2).
- Cen Li và Gautam Biswas đã đưa ra thuật toán mới để phân cụm dữ 8 liệu theo phương pháp gộp có tên SBAC (Similarity Based Agglomerative Clustering), trong đó lấy độ tương tự do Goodall đưa ra làm hàm tính độ tương tự cho thuật toán này.
- Trong bài, các tác giả đã đánh giá độ tương tự của Goodall làm việc tốt trên dữ liệu hỗn hợp.
- Nguyễn Ngọc Bình, Hồ Tú Bảo, Morita đã nghiên cứu các đặc điểm của độ tương tự của Goodall trong bài toán khai phá dữ liệu và đề xuất thuật toán cải thiện tốc độ tính toán độ tương tự cho một cặp đối tượng với độ phức tạp tính toán là O(n) theo thời gian và O(n) theo không gian lưu trữ.
- Năm 2005, Lê Sĩ Quang (2005) đã nghiên cứu và đưa ra độ đo tương tự cho dữ liệu phân loại, dữ liệu hỗn tạp và dữ liệu đồ thị.
- Các nghiên cứu trên đây của các tác giả phần lớn sử dụng độ tương tự hỗn hợp của Goodall trong các thuật toán của mình hoặc dùng Goodall với vai trò là một phương pháp để so sánh.
- Ngoài các bài nghiên cứu về độ đo tương tự hỗn hợp theo hướng nghiên cứu theo cách tính của Goodall, một số tác giả khác đã có những nghiên cứu theo các hướng khác về độ đo tương tự hỗn hợp và độ đo tương tự cho thuộc tính phân loại do tính chất đặc biệt của loại dữ liệu này.
- Zhexue Huang (1997) trình bày thuật toán k-prototypes dựa trên ý tưởng thuật toán k-mean để phân cụm cho tập dữ liệu lớn có chứa thuộc tính số và thuộc tính phân loại.
- Trong bài viết, tác giả đã trình bày cách tính hàm giá và độ tương tự cho các đối tượng dựa trên việc kết hợp giữa độ tương tự của thuộc tính số là Square Euclidean và độ tương tự của thuộc tính phân loại là số lượng giá trị khác của giữa các đối tượng và đối với các tâm của cụm.
- Amir Ahmad và Lipika Dey (2007) đã trình bày một thuật toán phân cụm dựa trên ý tưởng thuật toán k-mean cho dữ liệu hỗn hợp, các tác giả cũng đề xuất một hàm tính khoảng cách và tính hàm giá dựa trên sự đồng xuất hiện của các giá trị đồng thời trình bày sự thay đổi của tác giả về mô tả tâm của cụm trong thuật toán k-mean.
- Shuchita Upadhyaya, Alka Arora, Rajni Jain (2006) đề cập đến phương pháp sử dụng lý thuyết tập thô để đo độ tương tự của các đối tượng khi phân cụm.
- Trong phương pháp này, các tác giả đã kết hợp giữa quan hệ không phân biệt trong lý thuyết tập thô với đồ thị không phân biệt để tính độ tương tự giữa các đối tượng trong các cụm.
- Qua quá trình nghiên cứu và tìm hiểu, tác giả thấy rằng chưa có độ đo tương tự hỗn hợp nào vượt trội hơn độ đo của Goodall.
- (2006) cũng đã đề xuất các phương pháp tính toán độ đo tương tự cho các thuộc tính định danh, thuộc tính số và độ đo tương tự hỗn hợp cho hai loại thuộc tính đó trong các bài toán phân lớp và phân cụm dữ liệu.
- (2009) đã đưa phương pháp xác định hàm tương tự có trọng số để cải thiện hiệu năng của thuật toán láng giềng gần nhất.
- Gowda và Diday (1992) đã nghiên cứu đề xuất phương pháp mới để tính độ đo tương tự chỉ cho riêng thuộc tính định danh áp dụng cho bài toán phân cụm dữ liệu.
- Xuất phát từ nhu cầu thực tiễn và từ những nghiên cứu liên quan, việc tìm kiếm phương pháp tính toán độ đo tương tự hỗn hợp cho các bài toán khai phá dữ liệu dựa trên khoảng cách hay dựa trên độ đo tương tự như phân lớp và phân cụm là rất cần thiết.
- Chính vì lý do đó, tác giả tập trung nghiên cứu về độ đo tương tự trên dữ liệu hỗn hợp và khả năng áp dụng chúng trong các bài toán khai phá dữ liệu dựa trên độ đo khoảng cách hoặc độ đo tương tự trong đề tài luận án này.
- 1.6 Tổng kết chương 1 Trong chương này, tác giả đã trình bày các khái niệm và những vấn đề cơ bản về phát hiện tri thức và khai phá dữ liệu, các chức năng của phát hiện tri thức và khai phá dữ liệu, mô hình của hệ thống phát hiện tri thức và khai phá dữ liệu.
- Tác giả cũng tóm lược các nội dung cơ bản của lý thuyết tập thô để làm nền tảng cho các đề xuất tính toán trọng số trong độ đo tương tự hỗn hợp của Chương 2.
- Tác giả trình bày tổng quan về độ đo tương tự, mô hình độ đo tương tự và độ đo tương tự hỗn hợp.
- Những nghiên cứu trong và ngoài nước trước đó về độ đo tương tự, độ đo tương tự cho dữ liệu hỗn hợp giữa dạng số và định danh trong các bài toán khai phá dữ liệu dựa trên khoảng cách hay độ tương tự như bài toán phân lớp và phân cụm dữ liệu cũng được tác giả tóm lược trong chương.
- NGHIÊN CỨU ĐỘ ĐO TƯƠNG TỰ HỖN HỢP TRONG PHÁT HIỆN TRI THỨC TỪ DỮ LIỆU 2.1 Giới thiệu chương Mục tiêu của chương là nhằm đưa ra phương pháp tự động xác định trọng số trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô, độ đo này được tính gián tiếp thông qua độ đo khoảng cách hỗn hợp thoả mãn các tiên đề metric.
- Mục kế tiếp sẽ trình bày về độ đo tương tự hỗn hợp theo cách tiếp cận truyền thống và độ đo tương tự hỗn hợp theo tiếp cận của Goodall.
- Mục 3 trong chương trình bày phương pháp tự động tính trọng số cho các thuộc tính trong độ đo tương tự hỗn hợp dựa trên lý thuyết tập thô do tác giả đưa ra, đồng thời là các thử nghiệm về thời gian tính toán và qui trình sử dụng độ đo này trong các bài toán dựa trên khoảng cách trong phát hiện tri thức và khai phá dữ liệu.
- 2.2 Nghiên cứu về độ đo tương tự hỗn hợp Trong phần này, tác giả trình bày về độ đo tương tự hỗn hợp và tập trung vào trình bày lại phương pháp tính độ đo khoảng cách truyền thống và phương pháp tính độ đo tương tự của Goodall.
- Qua việc phân tích những điểm tồn tại của độ đo trên, tác giả dẫn dắt đến việc đề xuất phương pháp tính trọng số cho thuộc tính trong độ đo hỗn hợp.
- 2.3 Độ đo tương tự hỗn hợp có trọng số cho thuộc tính được xác định tự động dựa trên tiếp cận lý thuyết tập thô Khoảng cách giữa hai đối tượng Nhằm xác định khoảng cách hỗn hợp giữa hai đối tượng hay xác định độ tương tự hỗn hợp giữa hai đối tượng thỏa mãn các tiên đề metric, trong phần này tác giả đưa ra phương pháp tính trọng số cho các thuộc tính một cách tự động trong độ đo tương tự hỗn hợp với tiếp cận lý thuyết tập thô.
- Đây là một cách tiếp cận mới trong việc sử dụng lý thuyết tập thô cho các bài toán phát hiện tri thức 11 và khai phá dữ liệu.
- Giả sử các đối tượng trong một hệ quyết định được thể hiện bằng m thuộc tính A={a1, a2.
- am}, aik ∈ dom(ak) là giá trị trên thuộc tính k của đối tượng i và thuộc tính quyết định hay thuộc tính phân lớp là d.
- Xuất phát từ công thức tính khoảng cách Euclide, tác giả đưa thêm trọng số cho các thuộc tính tương ứng, khi đó khoảng cách giữa hai đối tượng được định nghĩa một cách tổng quát là.
- )∑∑====mkijkkmkijkkijgwgwG trong đó wk là trọng số tương ứng với thuộc tính thứ k, thoả mãn các điều kiện sau: mkwk,10.
- (2.40) và 112=∑=mkkw (2.41) gijk là khoảng cách của thuộc tính thứ k của đối tượng i và j.
- Với thuộc tính số, khoảng cách đã chuẩn hoá là.
- Trong trường hợp áp dụng công thức này cho bài toán phân lớp dữ liệu, ta phải thực hiện bước tiền xử lý để xác định miền giá trị cho thuộc tính thứ k của hệ quyết định, khi đó ( )kamin.
- Với tư tưởng trên và dựa trên lý thuyết tập thô, ta có thể xác định được mức độ ảnh hưởng của một thuộc tính ak tới kết quả phân lớp/phân cụm theo thuộc tính d.
- hệ số này thoả mãn điều kiện: 10 ≤≤kα (2.47) Từ đó, để chuẩn hoá các trọng số trong độ công thức tính độ đo thoả mãn (2.41), chúng tôi đưa ra công thức xác định trọng số cho các thuộc tính

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt