« Home « Kết quả tìm kiếm

Nghiên cứu các tập rút gọn và luật trong bảng quyết định theo tiếp cận lý thuyết tập thô


Tóm tắt Xem thử

- NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ.
- Tập rút gọn và tập lõi.
- RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ.
- Rút gọn thuộc tính và trích lọc luật trong bảng quyết định.
- Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính.
- Lựa chọn, so sánh, đánh giá các phương pháp rút gọn thuộc tính.
- Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách 25 2.2.1.
- Phương pháp rút gọn thuộc tính sử dụng khoảng cách.
- Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách.
- Thuật toán tìm tập rút gọn sử dụng entropy Liang.
- Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách.
- Rút gọn thuộc tính Attribute Reduction.
- Tập rút gọn Reduct.
- Các phương pháp rút gọn thuộc tính trong tài liệu [1.
- Bảng quyết định minh họa thuật toán tìm tập rút gọn.
- Tập rút gọn của Thuật toán ELBAR và Thuật toán DBAR.
- Tập rút gọn tốt nhất của bộ số liệu Soybean-small.
- Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô.
- Có rất nhiều phương pháp rút gọn thuộc tính khác nhau đã được đề xuất sử dụng các độ đo khác nhau.
- 1) Tổng hợp các phương pháp rút gọn thuộc tính và trích lọc luật trong bảng quyết định theo tiếp cận lý thuyết tập thô trong tài liệu [1, 2], bao gồm:.
- Phân nhóm các phương pháp rút gọn thuộc tính và mối liên hệ giữa các phương pháp dựa vào định nghĩa tập rút gọn..
- định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách.
- xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách.
- Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định.
- Thuộc tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.
- thì R là một tập rút gọn của C dựa trên miền dương..
- Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak.
- PRED C là họ tất cả các tập rút gọn Pawlak của C.
- Ta nói rằng a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R  PRED C.
- tất cả các tập rút gọn của C dựa trên ma trận phân biệt..
- tổng hợp các kết quả nghiên cứu về so sánh, đánh giá các phương pháp rút gọn thuộc tính..
- 2) Xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: xây dựng độ đo khoảng cách.
- xây dựng thuật toán heuristic tìm tập rút gọn sử dụng khoảng cách.
- Do đó, các phương pháp rút gọn thuộc tính sử dụng cận tập thô đều thực hiện theo hướng tiếp cận heuristic.
- Đưa ra khái niệm tập rút gọn của phương pháp dựa trên một độ đo được chọn.
- Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu chuẩn đánh giá độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc tính)..
- 1) Các phương pháp rút gọn thuộc tính trong bảng quyết định.
- Trong tài liệu [1, 2], tác giả đã tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định và các tập rút gọn tương ứng..
- Các phương pháp rút gọn thuộc tính trong tài liệu [1, 2].
- STT Phương pháp Tập rút gọn Ký hiệu tập.
- rút gọn 1 Phương pháp sử dụng miền.
- Tập rút gọn dựa trên miền dương.
- 2 Phương pháp sử dụng entropy Tập rút gọn dựa trên R H.
- 3 Phương pháp sử dụng metric Tập rút gọn dựa trên metric.
- Tập rút gọn dựa trên đại số quan hệ.
- Tập rút gọn dựa trên ma trận phân biệt.
- Tập rút gọn dựa trên entropy Liang.
- Tập rút gọn dựa trên độ khác biệt của tri thức..
- 2) Phân nhóm các phương pháp rút gọn thuộc tính.
- Do đó, có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính.
- 1) Nếu bảng quyết định nhất quán, các định nghĩa tập rút gọn R P , R H , R M , R F , R S , R E , R K là tương đương nhau..
- Tập rút gọn dựa trên entropy Shannon ( R H.
- tập rút gọn dựa trên metric ( R M.
- tập rút gọn dựa trên đại số quan hệ ( R F ) tương đương nhau..
- Tập rút gọn dựa trên ma trận phân biệt ( R S.
- tập rút gọn dựa trên entropy Liang ( R E.
- tập rút gọn dựa trên độ khác biệt của tri thức ( R K ) tương đương nhau..
- Mối liên hệ giữa các định nghĩa tập rút gọn.
- Các tập rút gọn trong bảng quyết định không nhất quán được chia thành bốn nhóm:.
- Nhóm 1: Bao gồm tập rút gọn R P.
- Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:.
- Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính trong bảng quyết định cũng được phân thành ba nhóm tương ứng..
- Các công bố về rút gọn thuộc tính đều tính toán độ phức tạp thời gian thuật toán tìm tập rút gọn.
- Vì vậy, luận văn tập trung nghiên cứu việc đánh giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn..
- Độ hỗ trợ sử dụng để đánh giá chất lượng phân lớp của tập rút gọn.
- các phương pháp rút gọn thuộc tính dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn..
- Do đó, tất cả các phương pháp rút gọn thuộc tính đã trình bày ở bài báo này đều phù hợp với các bảng quyết định nhất quán..
- Giả sử R 3 es B t là một tập rút gọn tốt nhất của các phương pháp thuộc Nhóm 3 ( R 3 es B t tìm được bởi thuật toán heuristic sử dụng entropy Liang, độ khác biệt của tri thức hay ma trận phân biệt).
- Giả sử R 2 es B t là một tập rút gọn tốt nhất của các phương pháp thuộc Nhóm 2 ( R 2 es B t tìm được bởi thuật toán heuristic sử dụng entropy Shannon, metric hay ma trận phân biệt).
- Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách.
- kết quả về so sánh và đánh giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn.
- 2) Định nghĩa tập rút gọn dựa trên khoảng cách..
- Định nghĩa tập rút gọn dựa trên khoảng cách.
- Xây dựng thuật toán heuristic tìm một tập rút gọn có chất lượng phân lớp tốt nhất..
- Đánh giá tập rút gọn tìm được và độ phức tạp của thuật toán..
- 1) Tập rút gọn dựa trên khoảng cách.
- thì R là một rút gọn của C dựa trên khoảng cách..
- Độ quan trọng của thuộc tính này là tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm tập rút gọn của bảng quyết định..
- 3) Thuật toán heuristic tìm tập rút gọn dựa trên khoảng cách phân hoạch.
- Phần này đề xuất một thuật toán heuristic tìm tập rút gọn tính toán lõi.
- Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách..
- Đầu ra: Một tập rút gọn tốt nhất R.
- //Tìm tập rút gọn dựa trên khoảng cách 4.
- Theo Định nghĩa 2.4, R là tập rút gọn dựa trên khoảng cách phân hoạch..
- R  a a là một tập rút gọn tốt nhất của C dựa trên khoảng cách..
- Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Trước hết, luận văn trình bày định nghĩa tập rút gọn dựa trên entropy Liang trong [5].
- Dựa trên entropy Liang có điều kiện, các tác giả trong [5] định nghĩa tập rút gọn của bảng quyết định..
- Đánh giá tính hiệu quả của thuật toán rút gọn thuộc tính sử dụng khoảng cách (Thuật toán DBAR) với các thuật toán trong Nhóm 3 (gồm phương pháp sử dụng entropy Liang, phương pháp sử dụng độ khác biệt của tri thức, phương pháp sử dụng ma trận phân biệt).
- Luận văn chọn thuật toán rút gọn thuộc tính sử dụng entropy Liang (của phương pháp rút gọn thuộc tính sử dụng entropy Liang), gọi tắt là thuật toán ELBAR (Entropy Liang Based Attribute Reduction) để so sánh với thuật toán DBAR vì phương pháp này hiệu quả hơn các phương pháp khác trong Nhóm 3 [1]..
- Cài đặt thuật toán DBAR và thuật toán rút gọn thuộc tính sử dụng entropy Liang (thuật toán ELBAR).
- thì R được gọi là một tập rút gọn của DS dựa trên entropy Liang..
- Tìm tập rút gọn của bảng quyết định sử dụng entropy Liang [5].
- Đầu ra: Một tập rút gọn R.
- Sau khi cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách (DBAR) và thuật toán rút gọn thuộc tính sử dụng entropy Liang (ELBAR), tác giả tiến hành thử nghiệm hai thuật toán này trên 6 bộ số liệu vừa và nhỏ lấy từ kho dữ liệu UCI [12].
- Tập rút gọn của Thuật toán DBAR 1 Hepatitis.data .
- 1) Thử nghiệm Thuật toán DBAR tìm một tập rút gọn tốt nhất.
- tính rút gọn.
- Phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn - Luật quyết định và các độ đo đánh giá hiệu năng tập luật quyết định..
- Tập rút gọn: {C1,C2,C3}.
- Số thuộc tính sau rút gọn: 3