« Home « Kết quả tìm kiếm

Luận văn Thạc sĩ Công nghệ thông tin: Sử dụng cây quyết định để phân loại dữ liệu nhiễu


Tóm tắt Xem thử

- SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU.
- SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU NHIỄU II- Nhiệm vụ và nội dung:.
- Nghiên cứu về cây quyết định trong việc khai thác dữ liệu - Nghiên cứu về dữ liệu nhiễu.
- Do vậy rất cần các phƣơng pháp để phân loại dữ liệu nhiễu một cách hiệu quả..
- NC4.5 sử dụng xác suất không chính xác (imprecise probabilities) và độ đo lƣờng không chắc chắn (uncertainty measures) để phân loại dữ liệu nhiễu tốt hơn.
- CHƢƠNG 2 TỔNG QUAN VỀ KHAI THÁC VÀ PHÂN LOẠI DỮ LIỆU.
- 2.1.1 Các vấn đề liên quan đến phân lớp dữ liệu.
- 2.2.2 Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định.
- 2.2.3 Đánh giá cây quyết định trong lĩnh vực khai phá dữ liệu.
- CHƢƠNG 3 SỬ DỤNG CÂY QUYẾT ĐỊNH ĐỂ PHÂN LOẠI DỮ LIỆU.
- 4.1 BỘ DỮ LIỆU.
- CSDL Cơ sở dữ liệu Database.
- ng 4.1 Liệt kê đặc tính của các bộ dữ liệu thực nghiệm.
- 33 ng 4.2 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0.
- ng 4.3 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10.
- ng 4.4 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30.
- ng 4.5 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.6 t qu v kích th ớc trung b nh của c cho 4.5 4.5 3 kh ng t a khi áp dụng trên tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.7 Độ chính xác của C4.5, NC4.5 và ID3 (có tỉa) khi đƣợc áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 0.
- ng 4.8 ộ chính ác của 4.5 4.5 và 3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 10.
- ng 4.9 ộ chính ác của 4.5 4.5 và 3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 30.
- ng 4.10 ộ chính ác trung b nh của 4.5 4.5 and 3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 0%.
- 50 ng 4.11 t qu trung b nh v kích th ớc c của 4.5 4.5 và 3 có t a khi đ c áp dụng trên các tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- 5 nh 2.3 h n lớp dữ liệu mới.
- 11 nh 2.6 gi của thuật toán ph n lớp dữ liệu dựa trên c qu t định.
- 17 nh 3.1 ự ph n nhánh của một n t dữ liệu nhiễu đ c thực hiện b i 4.5.
- 32 nh 4.2 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0.
- nh 4.3 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10.
- nh 4.4 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30.
- nh 4.5 iểu đồ so sánh độ v độ chính ác của 4.5 NC4.5, ID3 (không t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.6 iểu đồ so sánh v kích th ớc trung b nh của c tạo b i 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.7 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0.
- nh 4.8 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10.
- nh 4.9 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30.
- nh 4.10 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.11 iểu đồ so sánh v kích th ớc trung b nh của c tạo b i C4.5, 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%;.
- Áp dụng cây quyết định để phân loại dữ liệu nhiễu.
- Đối tƣợng nghiên cứu của đề tài là dữ liệu nhiễu và thuật toán cây quyết định..
- Phạm vi của đề tài là thuật toán khai thác dữ liệu nhiễu dựa trên cây quyết định 1.5 PHƢƠNG PHÁP NGHIÊN CỨU.
- Nghiên cứu về cây quyết định và các thuật toán khai thác dữ liệu dựa trên cây quyết định.
- Nghiên cứu áp dụng thuật toán dựa trên cây quyết định để phân loại dữ liệu nhiễu hiệu quả..
- TỔNG QUAN VỀ KHAI THÁC VÀ PHÂN LOẠI DỮ LIỆU.
- Quá trình phân lớp dữ liệu gồm hai bƣớc:.
- Mỗi bộ giá trị đƣợc gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu (sample), ví dụ (example), đối tƣợng (object), bản ghi (record) hay trƣờng hợp (case).
- Bƣớc thứ hai dùng mô hình đã xây dựng ở bƣớc trƣớc để phân lớp dữ liệu mới.
- Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã đƣợc gán nhãn lớp..
- Các mẫu này đƣợc chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu huấn luyện.
- Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấn luyện..
- nh 2.3 Ph n lớp dữ liệu mới [1].
- Chuẩn bị dữ liệu cho việc phân lớp.
- Quá trình tiền xử lý dữ liệu gồm có các công việc sau:.
- Làm sạch dữ liệu.
- Nhiễu là các lỗi ngẫu nhiên hay các giá trị không hợp lệ của các biến trong tập dữ liệu.
- Phân tích sự cần thiết của dữ liệu.
- Có rất nhiều thuộc tính trong tập dữ liệu có thể hoàn toàn không cần thiết hay liên quan đến một bài toán phân lớp cụ thể.
- Chuyển đổi dữ liệu.
- Cả hai kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu..
- Để phân lớp mẫu dữ liệu chƣa biết, giá trị các thuộc tính của mẫu đƣợc đƣa vào kiểm tra trên cây quyết định.
- Tránh “quá khớp” dữ liệu.
- Có hai phƣơng pháp tránh “quá khớp” dữ liệu trong cây quyết định:.
- Với θ là hằng số ngƣỡng (threshold) đƣợc lần lƣợt xác định dựa trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu huấn luyện.
- Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu huấn luyện có giá trị phân biệt thì cần thực hiện d-1 lần kiểm tra value(A.
- mỗi nhánh tƣơng ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính đƣợc chọn để phát triển tại node đó.
- Các thuật toán xây dựng cây quyết định đƣa ra thuộc tính mà phân chia tốt nhất tập dữ liệu huấn luyện bắt đầu từ node gốc của cây.
- Phần lớn các thuật toán phân lớp dữ liệu dựa trên cây quyết định có mã giả nhƣ sau:.
- Entropy: Dùng để đo tính thuần nhất của một tập dữ liệu.
- Trong trƣờng hợp các mẫu dữ liệu có hai thuộc tính phân lớp "yes".
- Tuy nhiên nó chƣa thực sự hiệu quả trong việc phân loại dữ liệu nhiễu.
- Tập dữ liệu này có 2 thuộc tính nhị phân là X 1 và X 2 .
- Nếu tập dữ liệu này đƣợc tìm thấy ở một nốt của một cây.
- Nếu tập dữ liệu này đƣợc tìm thấy ở một nốt của cây, khi đó thuật toán C4.5 sẽ chọn thuộc tính X 2 để phân nhánh (hình 3.2)..
- Nếu tập dữ liệu nhiễu xuất hiện trong một cây creedal, thì sau đó thuộc tính X 2 đƣợc lựa chọn để phân nhánh (hình 3.3).
- nh 3.3 ự ph n nhánh của một n t dữ liệu nhiễu đ c thực hiện b i c qu t định credal.
- Với K D (C) và K D (C|X = x i ) là các tập credal thu đƣợc thông qua IDM cho các biến C và (C|X = x i ) tƣơng ứng cho một phân mảnh D của tập dữ liệu;.
- Mỗi nút trong một cây quyết định tạo ra một phân nhánh của tập dữ liệu (Nút gốc D đƣợc xem nhƣ toàn bộ tập dữ liệu).
- ng 4.2 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.2 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.3 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10%.
- Từ bảng số liệu này ta thấy rằng độ chính xác của NC4.5 đã đƣợc cải tiến rõ rệt, hơn hẳn hai thuật toán còn lại khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10%.
- nh 4.3 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10%.
- ng 4.4 t qu v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30%.
- Tập dữ liệu C4.5 NC4.5 ID3.
- Từ bảng số liệu này ta thấy rằng độ chính xác của NC4.5 đã đƣợc cải tiến rõ rệt, hơn hẳn hai thuật toán còn lại khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30%.
- nh 4.4 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30%.
- nh 4.5 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.6 t qu v kích th ớc trung b nh của c cho không t a khi áp dụng trên tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- Từ bảng số liệu này ta thấy rõ sự khác biệt về kích thƣớc trung bình của cây NC4.5 so với C4.5, ID3 khi áp dụng trên tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%, 10%.
- nh 4.6 iểu đồ so sánh v kích th ớc trung b nh của c tạo b i C4.5, NC4.5, 3 kh ng t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.7 Độ chính xác của C4.5, NC4.5 và ID3 (có tỉa) khi đƣợc áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.7 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.8 ộ chính ác của 4.5 4.5 và 3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 10%.
- Từ bảng số liệu này ta thấy độ chính xác của NC4.5 so với C4.5 và ID3 (có tỉa) khi áp dụng với dữ liệu nhiễu 10% tốt hơn.
- nh 4.8 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 10%.
- ng 4.9 ộ chính ác của 4.5 4.5 và 3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 30%..
- nh 4.9 iểu đồ so sánh độ v độ chính ác của 4.5 4.5 3 có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 30%.
- ng 4.10 ộ chính ác trung b nh của 4.5 4.5 and ID3 có t a khi đ c áp dụng trên các tập dữ liệu với độ nhiễu ngẫu nhiên bằng 0%.
- ng 4.11 t qu trung b nh v kích th ớc c của 4.5 4.5 và 3 (có t a khi đ c áp dụng trên các tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- nh 4.11 iểu đồ so sánh v kích th ớc trung b nh của c tạo b i C4.5, NC4.5, ID3 (có t a khi áp dụng với tập dữ liệu có độ nhiễu ngẫu nhiên bằng 0%.
- Phân loại dữ liệu nhiễu là một lĩnh vực quan trọng của khái thác dữ liệu.
- Nó là một phƣơng pháp phù hợp để phân loại những dữ liệu nhiễu.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt