« Home « Kết quả tìm kiếm

Khai phá dữ liệu dựa trên bảng quyết định nhờ lý thuyết tập thô


Tóm tắt Xem thử

- Bảng quyết định.
- Tập rút gọn và tập lõi.
- PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH.
- Phương pháp rút gọn thuộc tính trên bảng quyết định.
- Phương pháp rút gọn thuộc tính dựa trên entropy Shannon.
- Tập rút gọn của bảng quyết định dựa trên Entropy Shannon.
- Độ quan trọng của thuộc tính dựa trên entropy Shannon.
- Thuật toán tìm tập rút gọn của bảng quyết định sử dụng Entropy Shannon.
- Sinh luật quyết định trên tập rút gọn của bảng quyết định.
- Thuật toán sinh luật quyết định dựa trên tập rút gọn của bảng quyết định.
- Kết quả thử nghiệm thuật toán rút gọn thuộc tính sử dụng entropy Shannon.
- Kết quả thử nghiệm thuật toán sinh luật quyết định dựa trên tập rút gọn.
- Ứng dụng thuật toán rút gọn thuộc tính vào thực tế.
- Thực hiện thuật toán rút gọn thuộc tính CEBARKCC.
- Rút gọn thuộc tính Attribute Reduction.
- Tập rút gọn Reduct.
- C Số thuộc tính điều kiện trong bảng quyết định.
- A Số thuộc tính trong hệ thông tin.
- u a Giá trị của đối tượng u tại thuộc tính a.
- U B Phân hoạch của U sinh bởi tập thuộc tính B.
- H P Entropy Shannon của tập thuộc tính P.
- Các luật phân lớp trên bảng quyết định rút gọn.
- Giao diện thực hiện thuật toán rút gọn thuộc tính.
- Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô..
- Với bảng quyết định, rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định..
- Mười năm trở lại đây, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các phương pháp rút gọn thuộc tính trong bảng quyết định sử dụng lý thuyết tập thô.
- Tìm hiểu các phương pháp rút gọn thuộc tính, từ đó lựa chọn phương pháp rút gọn thuộc tính sử dụng Entropy Shannon trong bảng quyết định và phương pháp sinh luật quyết định trên tập rút gọn thu được.
- A là tập hữu hạn, khác rỗng các thuộc tính;.
- với V a là tập giá trị của thuộc tính a  A.
- A là một tập con các thuộc tính thì ta.
- Ví dụ 1.2: Mô tả một bảng quyết định, với các thuộc tính điều kiện lấy ở Bảng 1.1 và thêm vào thuộc tính quyết định “Tc”.
- thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P.
- DS  U C  D V f và tập thuộc tính R  C .
- Ta nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R  PRED C.
- Các thuộc tính không cần thiết bao gồm:.
- Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham gia vào tập rút gọn R 1 và R 2.
- m i j n n  là ma trận phân biệt của DS và tập thuộc tính R  C .
- Thuộc tính.
- Chương này trình bày phương pháp rút gọn thuộc tính trên bảng quyết định sử dụng entropy Shannon trong mô hình tập thô truyền thống.
- Phƣơng pháp rút gọn thuộc tính trên bảng quyết định.
- 2) Đưa ra khái niệm độ quan trọng của thuộc tính.
- 3) Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn đánh giá là độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính).
- thuộc tính điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được tập rút gọn.
- 1) Phương pháp rút gọn thuộc tính dựa trên miền dương.
- 2) Phương pháp rút gọn thuộc tính sử dụng các phép toán trong đại số quan hệ.
- 3) Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt.
- 4) Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt 5) Phương pháp rút gọn thuộc tính sử dụng entropy thông tin.
- Phương pháp rút gọn thuộc tính dựa trên miền dương.
- Phương pháp rút gọn thuộc tính sử dụng ma trận phân biệt.
- Phương pháp rút gọn thuộc tính sử dụng các độ đo trong tính toán hạt.
- Trong các tác giả đã đề xuất các thuật toán heuristic tìm tập rút gọn sử dụng độ đo phép kết hạt bởi thuộc tính làm tiêu chuẩn đánh giá độ quan trọng của thuộc tính.
- Phương pháp rút gọn thuộc tính sử dụng entropy thông tin.
- Về mặt định tính, tập rút gọn có số thuộc tính càng ít thì chất lượng phân lớp càng cao..
- Cụ thể là: tập rút gọn của phương pháp rút gọn thuộc tính phải bảo toàn độ chắc chắn, độ nhất quán của tập luật quyết định.
- Với bảng quyết định không nhất quán, việc đánh giá các phương pháp rút gọn thuộc tính dựa trên hai tiêu chuẩn: số lượng thuộc tính tập rút gọn của phương pháp và độ phức tạp thuật toán tìm tập rút gọn..
- Theo tiêu chuẩn đánh giá số lượng thuộc tính của tập rút gọn, nhóm phương.
- Phƣơng pháp rút gọn thuộc tính dựa trên entropy Shannon.
- Định nghĩa tập rút gọn dựa trên entropy Shannon.
- Định nghĩa độ quan trọng của thuộc tính sử dụng entropy Shannon.
- và tập thuộc tính P  C .
- thuộc tính a  C.
- và tập thuộc tính R  C .
- và tập thuộc tính R  C , a.
- Độ quan trọng của thuộc tính a đối với R được định nghĩa bởi.
- Xét lần lượt các thuộc tính a a a 3 , 2 , 1 .
- hay a 3 không phải là thuộc tính dư thừa.
- H D C  a  H D C hay a 2 là thuộc tính dư thừa.
- H D C  a  H D C hay a 1 là thuộc tính dư thừa..
- Thuật toán heuristic tìm tập rút gọn tốt nhất.
- lần lượt bổ sung vào tập R các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn..
- Output: Một tập rút gọn R..
- Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất 3.
- //Loại bỏ các thuộc tính dư thừa trong R nếu có..
- Xét thuộc tính a 1.
- Xét thuộc tính a 2.
- Rút trích và đánh giá hiệu năng tập luật quyết định từ bảng quyết định là bước tiếp theo của rút gọn thuộc tính trong quá trình khai phá dữ liệu sử dụng lý thuyết tập thô.
- Các luật quyết định trên tập thuộc tính C là:.
- Bảng quyết định DS đã cho có 2 tập rút gọn là R 1.
- a a 2 , 4  Xét tập rút gọn R 1.
- Từ tập rút gọn này ta có các luật quyết định là:.
- Trên tập rút gọn R thì số luật quyết định được giảm bớt từ 6 luật xuống còn 4 luật, mỗi luật từ 4 thuộc tính vế trái xuống còn 2 thuộc tính..
- 1) Cài đặt và thử nghiệm, đánh giá thuật toán rút gọn thuộc tính sử dụng entropy Shannon.
- Bước 1: Cài đặt thuật toán rút gọn thuộc tính sử dụng entropy Shannon (Thuật toán CEBARKCC) bằng ngôn ngữ C# trên môi trường hệ điều hành Windows 7 Home Premium..
- Các thuộc tính điều kiện được đánh số thứ tự từ 1 đến C .
- STT Bộ số liệu U C R t Tập rút gọn.
- là độ chắc chắn của bảng quyết định với tập thuộc tính ban đầu.
- tính rút gọn.
- D1, D2, D3, D4 là các giá trị thuộc tính quyết định (tổng số 4 lớp quyết định)..
- Kết quả này khẳng định ý nghĩa của việc rút gọn thuộc tính trong bước tiền xử lý dữ liệu.
- Trong thực tế, việc sử dụng các phương pháp rút gọn thuộc tính trong các bảng quyết định có ý nghĩa rất quan trọng.
- Nó loại bỏ được các thuộc tính dư thừa (những thuộc tính không có ý nghĩa trong việc sinh ra các luật quyết định)..
- Trong phần này, xin được giới thiệu một vài bài toán ứng dụng các phương pháp rút gọn thuộc tính trong bảng quyết định đầy đủ, đồng thời sinh các luật quyết định..
- Sau khi thực hiện thuật toán rút gọn đã trình bày thì số thuộc tính quyết định chỉ còn lại 4.
- Sau khi thực hiện thuật toán rút gọn thuộc tính thu được một tập rút gọn gồm 03 thuộc tính là: Giới tính, Sắc tố da, ALK PHOSPHATE.
- Giao diện thực hiện thuật toán rút gọn thuộc tính 3.4.2.
- Kết quả thực hiện thuật toán sinh luật quyết định RuleExtract dựa trên tập rút gọn thu được từ thuật toán rút gọn thuộc tính với bộ dữ liệu Soybean - small.data như sau:.
- Bước 1: Tìm tập rút gọn của bảng quyết định với bộ số hình 3.2.
- (2) Cài đặt và thử nghiệm phương pháp rút gọn thuộc tính sử dụng entropy Shannon và phương pháp sinh luật quyết định trên các bộ số liệu thử nghiệm từ kho dữ liệu UCI..
- Tác giả luận văn sẽ tiếp tục nghiên cứu các phương pháp rút gọn thuộc tính trên bảng quyết định không đầy đủ sử dụng các độ đo khoảng cách..
- [4] Nguyễn Long Giang, Vũ Đức Thi (2011), “Một phương pháp rút gọn thuộc tính trong bảng quyết định dựa trên Entropy cải tiến”, Tạp chí Tin học và Điều khiển học, T.27, S.2, tr