« Home « Kết quả tìm kiếm

Hệ tìm kiếm và gợi ý thông tin


Tóm tắt Xem thử

- HỆ THỐNG GỢI Ý.
- Dựa trên người dùng (User-based.
- Tối ưu bằng phương pháp SGD.
- Tối ưu bằng phương pháp ALS.
- 33 CHƯƠNG 3 – ĐÁNH GIÁ CÁC PHƯƠNG PHÁP GỢI Ý.
- PHƯƠNG PHÁP ĐÁNH GIÁ.
- Gợi ý dựa trên người dùng (User-based.
- Phương pháp Fixed-size neighborhoods.
- Phương pháp Threshold neighborhoods.
- Phương pháp tối ưu SGD.
- Phương pháp tối ưu ALS.
- GIỚI THIỆU HỆ THỐNG.
- KIẾN TRÚC HỆ THỐNG.
- GIAO DIỆN HỆ THỐNG.
- Chức năng gợi ý theo người dùng.
- 49 Hình 20: Kiến trúc hệ thống.
- 58 Hình 29: Gợi ý cho người dùng đăng nhập.
- Đề xuất giải pháp xây dựng một hệ thống tìm kiếm và gợi ý phim hoàn chỉnh.
- Phương pháp láng giềng (Neighborhood-based, còn gọi là Memory based), trong đó hoặc là dựa trên dữ liệu quá khứ của người dùng “tương tự” (user-based approach), hoặc là dựa trên dữ liệu quá khứ của những item “tương tự” (item-based approach).
- Trong thực tế 13 thì gợi ý dựa trên sản phẩm thường tốt hơn là gợi ý dựa trên người dùng bởi sản phẩm thì đơn giản hơn, còn người dùng thì có thể có rất nhiều sở thích.
- Chẳng hạn một bộ phim thì có thể thuộc thể loại hành động hoặc tâm lý tình cảm (rất khó để bộ phim đó thuộc cả hai thể loại này cùng một lúc), nhưng người dùng thì có thể thích cả hai thể loại này.
- Nhóm giải thuật lọc trên nội dung (Content-based Filtering): Gợi ý sản phẩm dựa vào hồ sơ (profiles) của người dùng hoặc dựa vào nội dung/thuộc tính (attributes) của những sản phẩm tương tự như sản phẩm mà người dùng đã chọn trong quá khứ.
- Nhóm kỹ thuật không cá nhân hóa (non-personalization): Gợi ý như nhau đối với mọi người dùng.
- Trong giới hạn đó, tìm kiếm thông tin là tìm kiếm các văn bản chứa những thông tin hữu ích nhằm đáp ứng nhu cầu thông tin của người dùng.
- Trong quá trình tương tác này, người dùng là người đi tìm, còn máy tính phản hồi lại những thông tin có thể đáp ứng nhu cầu đó.
- Hành động đầu tiên trong quá trình tương tác này được thực hiện bởi người dùng.
- HỆ THỐNG GỢI Ý Hệ thống gợi ý (Recommender Systems - RS) là một dạng của hệ thống lọc thông tin (information filtering).
- Ví dụ, trong hệ thống bán hàng trực tuyến, nhằm tối ưu hóa khả năng mua sắm của khách hàng, người ta quan tâm đến việc những khách hàng nào đã ‘thích’ những sản phẩm nào bằng cách dựa vào dữ liệu quá khứ của họ (dữ liệu này có thể là xếp hạng mà người dùng đã bình chọn trên sản phẩm, thời gian duyệt trên sản phẩm, số lần click chuột trên sản phẩm.
- từ đó hệ thống sẽ dự đoán được người dùng có thể thích sản phẩm nào và đưa ra những gợi ý phù hợp cho họ.
- Phương pháp láng giềng (Neighborhood-based, còn gọi là Memorybased), trong đó hoặc là dựa trên dữ liệu quá khứ của người dùng “tương tự” (user-based approach), hoặc là dựa trên dữ liệu quá khứ của những sản phẩm “tương tự” (item-based approach.
- Nhóm giải thuật lọc trên nội dung (Content-based Filtering): Gợi ý các item dựa vào hồ sơ (profiles) của người dùng hoặc dựa vào nội dung/thuộc tính (attributes) của những item tương tự như item mà người dùng đã chọn trong quá khứ.
- Kỹ thuật k láng giềng Có hai cách tiếp cận của lọc cộng tác theo mô hình K láng giềng là dựa trên người dùng (User based.
- dự đoán dựa trên sự tương tự giữa các người dùng và dựa trên sản phẩm (Item based.
- Dựa trên người dùng (User-based) Kỹ thuật k láng giềng dựa trên người dùng xác định độ tương tự giữa hai người dùng thông qua việc so sánh các đánh giá của họ trên cùng sản phẩm, sau đó dự đoán xếp hạng trên sản phẩm i bởi người dùng u, thông qua các xếp hạng của những người dùng tương tự với người dùng u.
- Độ tương tự giữa người dùng u và người dùng u' có thể được tính theo Cosine hoặc Pearson như sau.
- rui và ru’i là đánh giá của người dùng u và u’ trên item i tương ứng  Iuu' là tập các item được đánh giá bởi cả người dùng u và người dùng u.
- là giá trị đánh giá trung bình trên tất cả các sản phẩm của người dùng u.
- là giá trị đánh giá trung bình trên tất cả các sản phẩm của người dùng u' Đánh giá của người dùng u trên sản phẩm i được dự đoán qua công thức.
- N là tập hợp các người dùng "tương tự" người dùng u  sim(u,u') là độ tương tự giữa người dùng u và u' 2.2.1.2.
- Uii' là tập các người dùng có đánh trên cả hai sản phẩm i và i’ 28.
- là giá trị đánh giá trung bình của tất cả các người dùng trên sản phẩm i.
- là giá trị đánh giá trung bình của tất cả các người dùng trên sản phẩm i’ Đánh giá của người dùng u trên sản phẩm i được dự đoán qua công thức.
- là ma trận mà mỗi cột là một vector bao gồm k nhân tố ẩn (latent factors) mô tả người dùng u, và Y.
- 29 Khi đó xếp hạng của người dùng u trên item i được dự đoán bởi công thức.
- Gợi ý được xem là phù hợp khi người dùng chọn sản phẩm từ danh sách các sản phẩm đã được hệ thống gợi ý cho người dùng.
- Số gợi ý phù hợp là số sản phẩm người dùng chọn (xem, nghe, mua, đọc.
- từ danh sách gợi ý mà hệ thống tạo ra.
- Còn Recall là tỷ lệ giữa số lượng các gợi ý phù hợp và số lượng các sản phẩm mà người dùng đã chọn (xem, nghe, mua, đọc.
- Recall được sử dụng để đo khả năng hệ thống tìm được những mục dữ liệu phù hợp so với những gì mà người dùng cần.
- Phương pháp láng giềng: Mahout cung cấp khai triển cho cả hai cách tiếp cận: dựa trên người dùng (user-based) và dựa trên sản phẩm (item-based).
- Fixed-size neighborhoods: Cố định số lượng láng giềng với một người dùng mà không quan tâm tới khoảng cách tương đồng.
- [8] 35 CHƯƠNG 3 – ĐÁNH GIÁ CÁC PHƯƠNG PHÁP GỢI Ý 3.1.
- Tập dữ liệu này gồm hơn 100.000 đánh giá của gần 700 người dùng cho gần 9000 bộ phim.
- Gợi ý dựa trên người dùng (User-based) Trong phần này ta sẽ thử nghiệm với hai cách định nghĩa láng giềng: Fixed-size neighborhoods và Threshold-based neighborhood đã nêu trong mục .
- Phương pháp Fixed-size neighborhoods Mục tiêu: Thử nghiệm ảnh hưởng của số láng giềng gần nhất tới kết quả gợi ý dựa trên người dùng trên 2 độ đo Pearson và Cosine.
- Phương pháp Threshold neighborhoods Mục tiêu: Thử nghiệm ảnh hưởng của khoảng cách láng giềng gần nhất (giá trị tương đồng trong khoảng từ 0 tới 1) tới kết quả gợi ý dựa trên người dùng trên 2 độ đo Pearson và Cosine.
- Phương pháp tối ưu SGD 1.
- Phương pháp tối ưu ALS 1.
- Gợi ý dựa trên sản phẩm: Sử dụng độ đo Euclide  Gợi ý dựa trên người dùng: Sử dụng số láng giềng là 350, độ đo Cosine.
- Ta thấy lỗi RMSE của phương pháp phân tích ma trân tỏ ra tốt hơn so với phương pháp gợi ý dựa trên sản phẩm 7.6%, và tốt hơn so với phương pháp gợi ý dựa trên người dùng 10.4% Phương pháp gợi ý RMSE min Item-based 0.920 User-based 0.949 Matrix Factorization 0.850 Bảng 11: Bảng lỗi trên các phương pháp học 49 Hình 19: So sánh lỗi 3 phương pháp gợi ý Item-based User-based MatrixFactorizationRMSE 50 CHƯƠNG 4 – THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG Trong chương này, chúng ta sẽ thiết kế, xây dựng và đánh giá một hệ thống tìm kiếm và gợi ý phim hoàn chỉnh cho người dùng.
- Thay vì đứng như các ứng dụng riêng rẽ, hệ thống gợi ý sẽ được tích hợp vào hệ thống tìm kiếm để trực tiếp đưa ra những gợi ý phù hợp với nội dung truy vấn (query) của người dùng.
- Phương pháp được sử dụng để đưa ra gợi ý cho người dùng là phân tích ma trận (matrix factorization), một mặt do đây đang là một trong những kỹ thuật hiện đại và hiệu quả tới thời điểm này, mặt khác hiệu quả của nó đã được kiểm chứng trong Chương 3.
- Nếu người dùng không đăng nhập vào hệ thống, hệ thống sẽ đưa ra gợi ý dựa trên độ tương đồng về phim, nghĩa là người dung nào cũng được gợi ý như vậy khi tìm kiếm cùng một bộ phim.
- Nếu người dùng đăng nhập vào hệ thống, hệ thống có thể đưa ra thêm gợi ý cá nhân hóa cho người dùng.
- Đây là bộ dữ liệu gồm hơn 100.000 đánh giá cho gần 9000 bộ phim, được thực hiện bởi gần 700 người dùng.
- Danh sách gợi ý phim cá nhân hóa cho từng người dùng được đẩy vào bảng dữ liệu người dùng trong Elasticsearch, tương ứng với từng người dùng.
- Nếu người dùng là khách (không đăng nhập) thì hệ thống sẽ gợi ý các phim tương đồng với phim được tìm kiếm.
- Nếu người dùng là thành viên (có đăng nhập) thì ngoài gợi ý các phim tương đồng với phim được tìm kiếm, hệ thống gợi ý thêm các phim được cá nhân hóa cho người dùng đó.
- Khối Web: cung cấp giao diện với người dùng Web, sử dụng ExpressJS 4.3.
- Đăng nhập vào hệ thống: người dùng nhập username và password của mình để đăng nhập vào hệ thống.
- Đăng xuất khỏi hệ thống.
- Đăng ký thành viên: người dùng nhập username và password của mình để đăng ký thành viên.
- Tìm kiếm phim: người dùng nhập từ khóa vào ô tìm kiếm, kết quả trả về danh sách những phim chứa từ khóa liên quan.
- Xem chi tiết phim: cho phép người dùng xem chi tiết mã phim, tên phim, thể loại phim.
- Gợi ý phim tương đồng: gợi ý danh sách những phim tương đồng với phim mà người dùng chọn.
- Gợi ý phim cá nhân hóa: nếu người dùng đăng nhập vào hệ thống, ngoài gợi ý danh sách phim tương đồng, hệ thống sẽ gợi ý thêm danh sách phim được cá nhân hóa tới ngươi dùng đó.
- Người dùng tìm kiếm phim bằng cách gõ vào từ khóa tìm kiếm trên giao diện web.
- Hệ thống trả về danh sách các phim liên quan tới từ khóa tìm kiếm.
- Người dùng chọn bộ phim mà mình cần tìm.
- Nếu người dùng không đăng nhập, hệ thống trả về kết quả chi tiết phim (ID, tên phim, thể loại) và gợi ý danh sách những phim tương đồng.
- Nếu người dùng đăng nhập, ngoài gợi ý danh sách phim tương đồng, hệ thống sẽ trả về thêm danh sách phim được cá nhân hóa tới ngươi dùng đó.
- Hệ thống hiển thị lại thành giao diện web cho người dùng.
- Người dùng chọn xem chi tiết phim 6.
- Search Engine kiểm tra thông tin đăng nhập của người dùng.
- Nếu người dùng không đăng nhập, Search Engine trả về kết quả chi tiết phim (ID, tên phim, thể loại) và gợi ý danh sách những phim tương đồng.
- Nếu người dùng đăng nhập, ngoài gợi ý danh sách phim tương đồng, Search Engine sẽ trả về thêm danh sách phim được cá nhân hóa tới ngươi dùng đó.
- GIAO DIỆN HỆ THỐNG 4.4.1.
- Chức năng tìm kiếm Giao diện để người dùng nhập từ khóa tìm kiếm.
- Chẳng hạn người dùng muốn tìm phim “Iron man 2” và họ nhập từ "iron" vào ô tìm kiếm như sau: Hình 24: Giao diện tìm kiếm Giao diện trả về danh sách các bộ phim có chứa từ khóa "iron" 57 Hình 25: Kết quả tìm kiếm 4.4.2.
- Chức năng quản lý đăng nhập Người dùng nhập User và Password để đăng nhập vào hệ thống Hình 26: Giao diện đăng nhập Tương tự như vậy, người dùng nhập User và Password để đăng ký thành viên 58 Hình 27: Giao diện đăng kí 4.4.3.
- Chức năng gợi ý theo sản phẩm tương đồng Sau khi nhận kết quả tìm kiếm trả về gồm danh sách các bộ phim, chẳng hạn danh sách các bộ phim có từ khóa "iron", người dùng chọn xem chi tiết bộ phim "Iron Man 2 (2010.
- Chức năng gợi ý theo người dùng Tương tự như vậy, nếu người dùng đăng nhập vào hệ thống, kết quả trả về gồm: chi tiết phim, gợi ý danh sách các bộ phim tương đồng với phim đó và gợi ý danh sách các bộ phim được cá nhân hóa cho người dùng đó.
- Hình 29: Gợi ý cho người dùng đăng nhập 60 CHƯƠNG 5 - KẾT LUẬN, HƯỚNG PHÁT TRIỂN 5.1.
- Về thực nghiệm: Việc xây dựng thành công hệ thống tìm kiếm và gợi ý theo giải pháp đã đề xuất, chứng minh được nền tảng lý thuyết đã nghiên cứu, kết hợp với các công cụ hỗ trợ và phát triển phần mềm, hoàn toàn có thể xây dựng thành công các hệ thống thương mại điện tử, giải trí tốt cho người dùng.
- Luận văn mới chỉ tìm hiểu một số thuật toán gợi ý phổ biến, dựa trên phản hồi rõ (explit feedback), tức là người dùng đánh giá trực tiếp trên 61 sản phẩm.
- Tuy nhiên, không phải người dùng lúc nào cũng sẵn sàng để lại các phản hồi của họ, vì vậy cần nghiên cứu thêm các thuật toán gợi ý thông qua phản hồi ẩn (implicit feedbacks.
- Chức năng gợi ý khi người dùng đăng nhập đang được tính offline và lưu vào khối (module) tìm kiếm.
- Đối với tập dữ liệu lớn, nếu tính online trên khối gợi ý thì khá chậm, ảnh hưởng tới trải nghiệm người dùng.
- Chẳng hạn: một người dùng mua rất nhiều sách của cùng một tác giả thì chứng tỏ anh ta thích tác giả đó.
- 62  Phát triển thêm các tính năng mới cho hệ thống: tính năng cho người dùng đánh giá sản phẩm, tính năng cho quản trị hệ thống (quản lý người dùng, quản lý sản phẩm, bổ sung và cập nhật dữ liệu mới)

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt