« Home « Kết quả tìm kiếm

Xây dựng, thử nghiệm giải pháp tìm kiếm theo yêu cầu người dùng, sử dụng Cloud computing và thuật toán Mapreduce


Tóm tắt Xem thử

- TÓM TẮT NỘI DUNG LUẬN VĂN THẠC SĨ Đề tài: Xây dựng thử nghiệm giải pháp tìm kiếm theo yêu cầu người dùng, sử dụng điện toán đám mây và thuật toán MapReduce Tác giả luận văn: Hoàng Anh Tuấn Lớp: CNTT Khóa Người hướng dẫn: PGS.TS.
- Huỳnh Quyết Thắng Tóm tắt nội dung Bài toán tìm kiếm theo yêu cầu người dùng đã tồn tại một thời gian khá lâu.
- Các thuật toán tìm kiếm thông thường phát triển các cách tìm kiếm chạy trên các máy đơn, khó có khả năng mở rộng cho các hệ thống dữ liệu lớn hàng trăm triệu đến hàng tỷ trang web.
- Trong thế giới Internet hiện nay, có quá nhiều dữ liệu, nên cần thiết phải có những công cụ tìm kiếm hỗ trợ người dùng để nhanh chóng đạt được mục đích.
- Luận văn này tập trung vào nghiên cứu giải quyết bài toán xây dựng hệ thống tìm kiếm theo yêu cầu người dùng có khả năng mở rộng cho hệ thống dữ liệu lớn, sử dụng điện toán đám mây và thuật toán MapReduce.
- Đây là những hướng phát triển mới, là nền tảng để phát triển những hệ thống xử lý dữ liệu lớn, trong đó có bài toán tìm kiếm theo yêu cầu người dùng.
- Hệ thống tìm kiếm bao gồm ba thành phần chính: hệ thống thu thập nội dung, hệ thống đánh chỉ mục và hệ thống truy vấn kết quả.
- Hệ thống thu thập nội dung cần đảm bảo thu thập và lưu trữ đủ nội dung cần thiết, bóc tách dữ liệu, bỏ bớt những thành phần không cần thiết.
- Trong phạm vi luận văn này, đã cải tiến thuật toán thu thập nội dung hoạt động trên hệ thống phân tán, thu thập nội dung các hệ thống tìm kiếm theo chiều dọc.
- Hệ thống đánh chỉ mục dữ liệu sử dụng thuật toán đánh chỉ mục ngược.
- Đánh chỉ mục giúp giảm dung lượng dữ liệu cần tìm kiếm, tăng tốc cho quá trình tìm kiếm.
- Hệ thống truy vấn kết quả giúp tìm kiếm chính xác yêu cầu người dùng thông qua dữ liệu chỉ mục.
- Ý tưởng xây dựng module tìm kiếm phân tán giúp tăng tốc độ tìm kiếm gấp nhiều lần.
- Hệ thống được triển khai cho ba hệ thống tìm kiếm tiếng việt, và một hệ thống thu thập nội dung trang web tiếng anh.
- Ba hệ thống tìm kiếm tiếng Việt là các hệ thống tìm kiếm theo chiều dọc, với tổng lượng dữ liệu là gần 70 triệu trang web, hệ thống thu thập nội dung trang web tiếng anh có tổng dữ liệu là 1,5 tỷ trang web.
- Sử dụng thuật toán MapReduce trên nền tảng điện toán đám mây, giúp tăng tốc độ thu thập, đánh chỉ mục dữ liệu, tăng tốc độ tìm kiếm thông qua thuật toán tìm kiếm phân tán.
- Một số vấn đề mở chưa được giải quyết trong luận văn là: cải thiện chất lượng của thuật toán tìm kiếm, giúp “hiểu” tiếng việt hơn, thay đổi cấu trúc chứa dữ liệu chỉ mục, lưu trữ vào các hệ thống NoSQL Database để tăng tốc độ đọc ghi, thay đổi thuật toán tìm kiếm sang thời gian thực… Hà nội, ngày tháng năm 2010 Người hướng dẫn

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt