« Home « Kết quả tìm kiếm

Nghiên cứu giải thuật Naїve Bayes trong bài toán phân loại văn bản


Tóm tắt Xem thử

- TĨM TẮT LUẬN VĂN THẠC SĨ Đề tài: Nghiên cứu giải thuật Nạve Bayes trong bài tốn phân loại văn bản Tác giả luận văn: Trần Hồng Hiệp.
- Để hỗ trợ người sử dụng tự động phân loại các tin nhắn, email như vậy, hiện cĩ rất nhiều phần mềm cũng như dịch vụ hỗ trợ, các chương trình hiện tại thường sử dụng những từ khố, blacklist để phân loại, những cách làm này cĩ hiệu quả nhưng khơng triệt để, vì vậy cần đưa ra giải pháp phân loại các tin nhắn, email như vậy dựa trên nội dung văn bản.
- Chính lý do trên em đã tập trung tìm hiểu về bài tốn phân loại văn bản Text Categorization.
- Mục đích, phạm vi nghiên cứu Với Luận văn này em tập trung nghiên cứu sâu vào bài tốn cùng với 02 phương pháp để thực hiện phân loại văn bản đĩ là Nạve Bayes, và Support Vector Machine.
- Thực hiện phân loại trên các tập dữ liệu mẫu, và đánh giá kết quả thu được.
- Nghiên cứu giải thuật SVM nĩi chung và áp dụng cho bài tốn phân loại văn bản nĩi riêng.
- Tìm hiểu các cải tiến của giải thuật Nạve Bayes, đem đến kết quả phân loại tốt gần với giải thuật SVM Luận văn được trình bày bao gồm 04 chương: Chương 1.
- Tổng quan về bài tốn phân loại văn bản.
- Phần này của tài liệu sẽ trình bầy các nội dung chính của bài tốn phân loại văn bản.
- Giải thuật Nạve Bayes với bài tốn phân loại văn bản.
- Giải thuật Nạve Bayes sẽ được trình bầy rõ tại chương này, cùng với cải tiến của giải thuật để đem lại hiệu quả cao hơn (giải thuật TWCNB) Chương 3.
- Giải thuật SVM trong bài tốn phân loại văn bản.
- Các lý thuyết tốn học để xây dựng nên giải thuật SVM sẽ được trình bày tại chương này.
- Các kết quả nhận được khi thực hiện chạy chương trình demo giải thuật trên các bộ dữ liệu cĩ sẵn, cũng như những kết luận về khả năng phân loại của các bộ phân loại.
- Phương pháp thực hiện.
- Xây dựng chương trình mơ phỏng giải thuật.
- Thực hiện kiểm nghiệm trên các bộ dữ liệu mẫu.
- Kết luận: Qua quá trình thực hiện kiểm nghiệm các giải thuật phân loại, trên các bộ dữ liệu văn bản, ta rút ra được những đánh giá khá tốt về giải thuật TWCNB.
- Giải thuật này khá đơn giản trong cài đặt, cũng như thời gian tính tốn nhanh, phù hợp với các yêu cầu phân loại trong ứng dụng thực tế mà khơng yêu cầu độ chính xác cao nhất cĩ thể.
- Kết quả phân loại của giải thuật này khá gần với kết quả phân loại của SVM, trong khi thời gian tính tốn cũng như các tham số để tinh chỉnh ít hơn rất nhiều.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt