« Home « Kết quả tìm kiếm

Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu


Tóm tắt Xem thử

- TÓM TẮT LUẬN VĂN Đề tài: Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu.
- Khi số lượng thông tin trên mạng toàn cầu ngày càng phát triển, với cách tìm kiếm tổng quát sẽ là rất tốt trong trường hợp bạn không có một site chủ đích nào, hay bạn tìm kiếm theo kiểu đa nghĩa.
- Vì vậy, luận văn với đề tài "Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu" với ý tưởng thực hiện tự động hoá việc tạo ra và duy trì các cổng internet phục vụ cho việc tìm kiếm chuyên sâu (theo chủ đề/ chuyên mục) và có thể tái sử dụng trên nhiều lĩnh vực khác nhau là cần thiết.
- Luận văn tập trung tìm hiểu ý tưởng của lý thuyết về học tăng cường, phương pháp phân loại văn bản dùng vector hỗ trợ, phương pháp tách từ tiếng Việt bằng automata hữu hạn trạng thái xác định kết hợp xác suất thống kê, để tích hợp modul phân loại văn bản và modul tách từ tiếng Việt trong việc xây dựng một bộ thu thập thông tin trong hệ thống tìm kiếm thông tin theo lĩnh vực chuyên sâu với chiến lược tìm được đường đi ngắn nhất tới tài liệu và tránh tối đa các vùng không có khả năng đem lại tài liệu đúng chủ đề.
- Ngoài ra, luận văn còn tìm hiểu thêm một số vấn đề về mã nguồn mở Nutch để cài đặt thử nghiệm hệ thống theo ý tưởng đã xây dựng.
- Luận văn đã cho thấy khả năng cải thiện hiệu năng làm việc của hệ thống bằng cách thay thế phương pháp phân loại văn bản Naïve Bayes theo đề xuất của nhóm tác giả McCallum bằng phương pháp dùng vector hỗ trợ.
- Hơn nữa, luận văn còn mong muốn có thể xây dựng một hệ thống thu thập thông tin theo lĩnh vực chuyên sâu bằng cách không những chỉ phân tích các trang web đúng chủ đề mà còn có khả năng dựa vào các trang web trung gian (trang web không mang chủ đề) để tìm đến trang web đúng chủ đề, vì trong thực tế có rất nhiều trang web không đúng chủ đề lại gián tiếp trỏ tới trang web đúng chủ đề.
- Để thực hiện mục đích đã đặt ra, luận văn đã sử dụng các phương pháp: Đọc và tìm hiểu tài liệu.
- Các kết quả thử nghiệm thu được đã cho thấy việc tích hợp modul phân loại văn bản dùng vector hỗ trợ và modul tách từ tiếng Việt sử dụng automata hữu hạn trạng thái xác định kết hợp xác suất thống kê với modul thu thập thông tin dùng ý tưởng của lý thuyết về học tăng cường đã đáp ứng được mục đích của luận văn đã đề ra.
- Mục đích này cũng đã phần nào đề xuất được một phương pháp mới trong việc thu thập tài liệu trong đó có tài liệu tiếng Việt theo lĩnh vực chuyên sâu.
- Kết quả thử nghiệm cũng là một bằng chứng cho thấy việc ứng dụng kỹ thuật học máy (qua phương pháp học tăng cường kết hợp với SVM) là hoàn toàn phù hợp với bài toán thu thập thông tin của hệ thống tìm kiếm thông tin theo lĩnh vực chuyên sâu.
- Hệ thống có khả năng hoạt động trên môi trường tiếng Việt.
- Do đó, hệ thống có thể phục vụ tốt cho người dùng tiếng Việt.
- Cùng với chi phí đầu tư có thể chấp nhận được và khả năng linh hoạt của hệ thống hoàn toàn có thể giúp cho các cơ quan, tổ chức xây dựng và duy trì cổng thông tin điện tử để tìm kiếm thông tin về một lĩnh vực chuyên sâu khi có nhu cầu.
- Điều này hứa hẹn sẽ cải thiện được hiệu suất và độ chính xác của hệ thống thu thập thông tin theo lĩnh vực chuyên sâu trong tương lai gần.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt