- LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN TÓM TẮT DỮ LIỆU DỰA TRÊN LÝ THUYẾT TẬP MỜ HÀ NỘI 2009 BÙI MINH CƯỜNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. - Hà nội, tháng 10 năm 2009 Sinh viên Bùi Minh Cường Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 2 MỤC LỤC TRANG PHỤ BÌA. - 8 CHƯƠNG 1 - TỔNG QUAN VỀ TÓM TẮT NGỮ NGHĨA DỮ LIỆU ĐỐI VỚI CƠ SỞ DỮ LIỆU QUAN HỆ. - Cơ sở dữ liệu quan hệ và bài toán tóm tắt dữ liệu. - Bài toán tóm tắt dữ liệu - vai trò, ý nghĩa. - Các hướng nghiên cứu liên quan tới tóm tắt ngữ nghĩa dữ liệu. - Vai trò phân cấp khái niệm trong tóm tắt dữ liệu. - 23 CHƯƠNG 3 - MỘT SỐ PHƯƠNG PHÁP TÓM TẮT DỮ LIỆU SỬ DỤNG LÝ THUYẾT TẬP MỜ. - 28 Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 3 3.2. - Phương pháp sản sinh hệ thống phân cấp tóm tắt dữ liệu. - 38 CHƯƠNG 4 - PHƯƠNG PHÁP SẢN SINH PHÂN CẤP TÓM TẮT. - Kiến trúc mô hình tóm tắt dữ liệu. - Đơn giản hóa mô hình tóm tắt dữ liệu. - Các bước của quá trình tóm tắt dữ liệu. - Sản sinh phân cấp tóm tắt. - Biểu diễn hình thức của các tóm tắt. - Việc hình thành khái niệm trong mô hình tóm tắt dữ liệu. - Giải thuật hình thành phân cấp tóm tắt -SAINTETIQ. - 58 Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT . - Độ đặc thù của một phân nhóm tóm tắt. - Độ tương phản của một phân nhóm tóm tắt. - Độ hữu dụng của tóm tắt. - Module xây dựng phân cấp tóm tắt. - Kết hợp bước dịch với phương pháp tóm tắt hướng thuộc tính. - Truy vấn trên phân cấp tóm tắt. - Các hướng nghiên cứu tóm tắt dữ liệu. - Kết quả sau tóm tắt với Age. - Kết quả sau tóm tắt với Income. - Kết quả sau tóm tắt. - 48 Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 7 DANH MỤC CÁC HÌNH Hình 2.1. - Mô hình xây dựng các tóm tắt dữ liệu. - Kiến trúc đơn giản của mô hình tóm tắt. - Các module chính của mô hình tóm tắt dữ liệu. - Hình dung hoạt động của module tóm tắt. - Cây phân cấp tóm tắt. - Một cây phân cấp tóm tắt. - Chương 3: Một số phương pháp tóm tắt dữ liệu sử dụng lý thuyết tập mờ. - Chương 4: Phương pháp sản sinh phân cấp tóm tắt. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 10 1.2. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 11 1.3. - Sự tương tác được thể hiện thông qua định nghĩa của các tóm tắt. - Tiếp theo, chương này cũng sẽ đề cập tới thành phần tri thức nền và phân cấp khái niệm sử dụng trong tóm tắt dữ liệu. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 18 Gọi tập rõ như là tập vũ trụ của ngôn ngữ. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 20 Hình 2.2. - Đây là thành phần không thể thiếu đối với bất kỳ phương pháp tóm tắt dữ liệu dựa trên lý thuyết về tập mờ nào. - Ví dụ : Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 21 Hình 2.3. - Ở các chương tiếp theo, luận văn sẽ tiếp tục đề cập đến một số phương pháp tóm tắt dữ liệu dự trên lý thuyết tập mờ. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 27 Hình 3-1. - Kết quả sau tóm tắt với Income Kết quả Bảng 3.4. - Đầu ra: Các bộ tóm tắt ở nhiều mức, suy diễn tri thức. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 30 3.2. - Phương pháp sản sinh hệ thống phân cấp tóm tắt dữ liệu 3.2.1. - Các tóm tắt chồng chéo lên nhau z của * sẽ được định nghĩa dựa trên các bản ghi của cơ sở dữ liệu và tri thức có sẵn. - Mô hình xây dựng các tóm tắt dữ liệu Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 31 3.2.2. - Bộ ứng cử viên ban đầu sẽ được phân loại vào trong phân cấp tóm tắt đã có sẵn. - Mô hình này cung cấp nhiều mức độ chi tiết khác nhau hay các mức độ Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 33 trừu tượng đối với dữ liệu. - Người dùng có thể tiến hành truy vấn tri thức trực tiếp từ cây phân cấp tóm tắt. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 34 Ví dụ: Với cơ sở dữ liệu ban đầu: Bảng 3.5. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 37 Tiêu chuẩn 2: Cây phân cấp có nhiều khái niệm trừu tượng tại mỗi mức thì càng tốt, có càng nhiều phân cấp thì càng tốt. - Kiến trúc mô hình tóm tắt dữ liệu 4.1.1. - Hình dưới đây miêu tả tổ chức và luồng dữ liệu của toàn quá trình xung quanh hai module này: Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 42 Hình 4.2. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 43 2. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT . - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 46 Bảng 4.1. - Các trọng số w cho phép biết được chính xác tính đại diện của một nhóm các bộ ứng cử trên Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 48 quan điểm cơ sở dữ liệu ban đầu. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 50 Hơn thế nữa, thể hiện của một tóm tắt được định nghĩa là: Ta hãy xem xét lấy từ Bảng 4. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 53 - Đưa ra một miêu tả nội dung cho mỗi nhóm, tức là định nghĩa các khái niệm giúp tóm tắt các thể hiện của nhóm. - Mỗi nút trên cây sẽ biểu diễn một tóm tắt. - Cây phân cấp tóm tắt Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 54 Việc sắp thứ tự từng phần các tóm tắt. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 55 4.2.3. - Giải thuật hình thành phân cấp tóm tắt -SAINTETIQ Giải thuật 1. - SAINTETIQ Đầu vào: nút hiện tại z của cây phân cấp tóm tắt. - Đầu ra: một cây phân cấp tóm tắt đã phân loại bộ ứng cử viên ct đưa vào. - end for Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 56 Đặt là nút con có kết quả cao nhất . - và sẽ xây dựng một tóm tắt mới từ miêu tả của các bộ ứng cử viên ct.. - Hợp nhất hai tóm tắt. - Phân tách một tóm tắt Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT . - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 59 Giải thuật SAINTETIQ khởi tạo miêu tả một tóm tắt mới với đầy đủ các đặc điểm của bộ ứng cử viên đang xét. - Tương phản giữa các tóm tắt trong một phân nhóm P = {z1. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 66 4.3. - Biểu diễn mờ của các tóm tắt đã được nghiên cứu kỹ. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 69 Hình 5.1. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 70 Lớp FuzzyAttribute: Hình 5.2. - Việc lưu trữ và truy xuất tri thức nền được hiện thông qua lớp BackgroundKnowledgeManager: Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 71 Hình 5.3. - Ví dụ: result[“INC”]={1.0/Enormous, 1.0/miserable} Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 73 Hình 5.6. - CaculateSummarizationInfo Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 74 Lớp này đảm trách việc tính các thông số như Q, Delta, Card, XichMa, độ đồng dạng, tính đồng nhất…. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 75 if (rootNode.IsScattered. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 76 Tính Qsplit. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 77 Hình 5.8. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 78 Hình 5.9. - Giao diện xây dựng phân cấp khái niệm cho thuộc tính số Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 79 Hình 5.11. - Các bộ ứng cử Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 80 Danh sách các bộ ứng cử được hiển thị ở tab “Dữ liệu đã được xử lý”. - Điều này có thể đạt được thông qua việc áp dụng phương Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 82 pháp tóm tắt hướng thuộc tính vào bước dịch của thuật toán xây dựng cây phân cấp tóm tắt. - Bảng dữ liệu gốc càng có nhiều thuộc tính, thời gian xử lý, sản sinh phân cấp tóm tắt sẽ càng lớn. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 83 Giả sử ta cần tích hợp một bộ ứng ct và cây phân cấp tóm tắt này. - Bên cạnh đó luận văn cũng xin đề xuất những hướng phát triển sau: Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 87 6.1. - Mức độ chi tiết của từng nút z trên cây phân cấp tóm tắt cũng giảm theo. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 89 TÀI LIỆU THAM KHẢO [1] P. - on Information Processing and Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 90 Management of Uncertainty in Knowledge-Based Systems (IPMU’2000), vol. - Tóm tắt dữ liệu dựa trên lý thuyết tập Bùi Minh Cường- CNTT79 91 [18] D
Xem thử không khả dụng, vui lòng xem tại trang nguồn hoặc xem
Tóm tắt