« Home « Kết quả tìm kiếm

MÔ HÌNH KẾT HỢP NGƯỠNG SỞ THÍCH VÀ LUẬT SỐ ĐÔNG CHO DỰ ĐOÁN XẾP HẠNG TRONG HỆ THỐNG GỢI Ý


Tóm tắt Xem thử

- MÔ HÌNH KẾT HỢP NGƯỠNG SỞ THÍCH VÀ LUẬT SỐ ĐÔNG CHO DỰ ĐOÁN XẾP HẠNG TRONG HỆ THỐNG GỢI Ý.
- 1 Trung tâm Công nghê Phần mềm, Tr ̣ ườ ng Đại học Câ ̀ n Thơ.
- 2 Trung tâm Chất lượng Nông lâm thu ̉ y sa ̉ n vu ̀ ng 5.
- Truyền thông, Tr ườ ng Đại học Cần Thơ Thông tin chung:.
- Hệ thống gợi ý, lọc cộng tác, bình chọn số đông, ngưỡng sở thích.
- Hệ thống gợi ý (Recommender Systems – RS) hiện đang được sử dụng trong nhiều lĩnh vực (như thương mại điện tử, giáo dục, giải trí.
- để dự đoán “sở thích” (thói quen/ nhu cầu/ năng lực.
- của người dùng từ đó gợi ý cho họ những mục thông tin (item) phù hợp nhất.
- Bài viết này đề xuất một tiếp cận mới trong dự đoán xếp hạng của hệ thống gợi ý, đó là việc sử dụng luật bình chọn số đông kết hợp với ngưỡng sở thích nhằm xác định giá trị xếp hạng của người dùng trên các mục thông tin.
- Phương pháp đề xuất này khá đơn giản nhưng lại cho kết quả rất khả quan.
- Kết quả thử nghiệm trên các tập dữ liệu chuẩn cho thấy phương pháp được đề xuất có thời gian thực hiện nhanh hơn đáng kể so với các phương pháp truyền thống dựa trên lọc cộng tác trong khi độ chính xác cũng được cải thiện trong phần lớn các trường hợp thử nghiệm..
- Chính vì thế, đây có thể là một hướng tiếp cận hữu ích trong lĩnh vực dự đoán xếp hạng của RS..
- Hiện nay, thương mại điện tử (e-commerce) giúp người dùng có thể tiếp cận với sản phẩm một cách dễ dàng và nhanh chóng hơn so với các phương thức mua bán truyền thống.
- Thế nên, sự trợ giúp và tư vấn cho khách hàng là rất quan trọng và cần thiết để họ có thể lựa chọn được sản phẩm phù hợp với sở thích của mình..
- Hệ thống gợi ý (Recommender Systems - RS) đóng vai trò như một người trung gian đưa ra các gơ ̣i ý sản phẩm được cho là phù hợp với sở thích của người dùng.
- Bằng cách thu thập thông tin về sở thích (thông qua các phản hồi của người dùng trên sản phẩm), hệ thống sẽ gợi ý các sản phẩm phù hợp nhất..
- Đã có nhiều công trı̀nh nghiên cứu về các hệ thống gợi ý sử du ̣ng các kỹ thuâ ̣t khác nhau như:.
- Hệ thống gợi ý sản phẩm trong bán hàng trực tuyến sử dụng kỹ thuật lọc cộng tác [3].
- Xây dựng hệ thống gợi ý phim dựa trên mô hình nhân tố láng giềng [15].
- Hệ thống gợi ý áp dụng cho trang web tổng hợp tin tức tự động [8].
- đoán xếp ha ̣ng (rating prediction) trong hệ thống gợi ý..
- 2 HỆ THỐNG GỢI Ý VÀ DỰ ĐOÁN XẾP HẠNG (RATING PREDICTION).
- Hình 1: Ma trận biểu diễn xếp hạng của người dùng-mục tin.
- Ở đó, mỗi dòng là một user, mỗi cột là một item, và mỗi ô là một giá trị xếp hạng (rating) biểu diễn “mức độ thích” của user trên item tương ứng..
- Các ô có giá trị là những item mà các user đã xếp hạng trong quá khứ.
- Những ô trống là những item chưa được xếp hạng (điều đáng lưu ý là mỗi user chỉ xếp hạng cho một vài item trong quá khứ, do vậy có rất nhiều ô trống trong ma trận này – còn gọi là ma trận cực thưa – sparse matrix)..
- Nhiệm vụ chính của RS là dựa vào các ô đã có giá trị trong ma trận này (dữ liệu thu được từ quá khứ), để dự đoán các ô còn trống (của user hiện hành), sau đó sắp xếp kết quả dự đoán (ví dụ, từ cao xuống thấp) và chọn ra Top-N items theo thứ tự, từ đó gợi ý chúng cho người dùng..
- Gọi là một tập hợp người dùng (user),.
- và là một người dùng cụ thể nào đó.
- Gọi là một tập hợp mục thông tin (item.
- và là một mục thông tin cụ thể nào đó.
- là xếp hạng của người dùng trên mục thông tin.
- Lưu ý rằng giá trị có thể được xác định một cách tường minh (explicit feedback) như thông qua việc đánh giá/xếp hạng (ví dụ, rating từ 1 đến 5;.
- mà đã bình chọn cho – trong trường hợp này gọi là dự đoán xếp hạng (rating prediction).
- Gọi ⊆ là tập dữ liệu huấn.
- Gọi ⊆ là tập dữ liệu kiểm thử..
- Có 2 dạng dự đoán phổ biến trong RS là dự đoán xếp hạng (rating prediction) như đã thấy ở trên và dự đoán mục thông tin (item prediction.
- xác định xác suất mà người dùng thích mục tin tương ứng.
- Tuy nhiên, trong khuôn khổ bài viết này, chúng tôi chỉ quan tâm đến lĩnh vực dự đoán xếp hạng..
- Nhóm giải thuật lọc cộng tác (Collaborative Filtering): trong nhóm này, các giải thuật chủ yếu dựa trên các kỹ thuật:.
- Phương pháp láng giềng (Neighborhood- based, còn gọi là Memory-based), trong đó hoặc là dựa trên dữ liệu quá khứ của người dùng “tương tự - similarity” (user-based approach), hoặc là dựa trên dữ liệu quá khứ của những item “tương tự”.
- Dựa trên mô hình (Model-based): Nhóm này liên quan đến việc xây dựng các mô hình dự đoán dựa trên dữ liệu thu thập được trong quá khứ..
- Nhóm giải thuật lọc trên nội dung (Content- based Filtering): Gợi ý các item dựa vào hồ sơ (profiles) của người dùng hoặc dựa vào nội dung (attributes) của những item tương tự như item mà người dùng đã chọn trong quá khứ..
- 3 KỸ THUẬT LÁNG GIỀNG LÂN CẬN CHO LỌC CỘNG TÁC (KNN.
- Phương pháp lọc cộng tác có đặc trưng cơ bản là nó thường sử dụng toàn bộ dữ liệu đã có để dự đoán đánh giá của một người dùng nào đó về sản phẩm mới.
- Nhờ lợi thế là nó có khả năng đưa trực tiếp dữ liệu mới vào bảng dữ liệu, do đó nó đạt được khá nhiều thành công khi được áp dụng vào các ứng dụng thực tế.
- Cũng do đó mà các kỹ thuật này thường đưa ra các dự đoán chính xác hơn trong các hệ trực tuyến – nơi mà ở đó luôn có dữ liệu mới được cập nhật [3]..
- Thông thường, có hai cách tiếp cận của lọc cộng tác theo mô hình K láng giềng lân cận: hệ dựa trên người dùng (User_KNN.
- tức dự đoán dựa trên sự tương tự giữa các người dùng và hệ dựa trên sản phẩm (Item_KNN.
- dự đoán dựa trên sự tương tự giữa các sản phẩm..
- Hệ dựa trên người dùng (User_KNN) xác định sự tương tự giữa hai người dùng thông qua việc so sánh các đánh giá của họ trên cùng sản phẩm, sau đó dự đoán đánh giá sản phẩm bởi người dùng , hay chính là đánh giá trung bình của những người dùng tương tự với người dùng .
- Độ tương tự giữa người dùng và người dùng ′ có thể được tính theo Cosine hoặc Pearson (L.
- Một số phân tích thực nghiệm cho thấy rằng đối với hệ dựa trên người dùng thì tính độ tương tự theo Pearson sẽ tốt hơn so với một vài cách khác như độ tương tự theo cấp bậc của Spearman (Spearman’s rank correlation) hay độ tương tự theo bình phương trung bình (mean squared difference) [3]..
- Công thức tính độ tương tự theo Pearson và Cosine như sau:.
- là một tập các item được đánh giá bởi và.
- là giá trị đánh giá trung bình trên tất cả các item của người dùng.
- Đưa ra được những dự đoán hoặc lời gợi ý là một bước quan trọng trong hệ tư vấn lọc cộng tác..
- Sau khi tính toán độ tương tự giữa các người dùng hay giữa các sản phẩm, chúng ta có thể dự đoán đánh giá của người dùng trên sản phẩm theo công thức (P.
- chính là dự đoán cho người dùng trên sản phẩm.
- độ tương tự giữa người dùng và.
- là số người dùng có độ lân cận gần người dùng.
- Chúng tôi biểu diễn giải thuật lọc cộng tác dựa trên người dùng lân cận (User_KNN) sử dụng độ tương tự Pearson bằng ngôn ngữ giả để dự đoán độ thích cho người dùng trên sản phẩm như sau:.
- sắp xếp giảm dần độ tương tự.
- Các người dùng k gần nhất của u.
- đánh giá trung bình của người dùng trên tất cả các item.
- đánh giá của người dùng trên tập huấn luyện K: người dùng k gần nhất.
- N : số người dùng M: số item.
- tập dữ liệu huấn luyện.
- 4 PHƯƠNG PHÁP SỬ DỤNG LUẬT BÌNH CHỌN SỐ ĐÔNG KẾT HỢP NGƯỠNG SỞ THÍCH.
- Trong phần này chúng tôi sẽ đề xuất phương pháp Luâ ̣t bı̀nh cho ̣n số đông kết hợp ngưỡng sở.
- thı́ch (đặt tên là MASSVOTING) dựa trên ý tưởng xem xét sự tương đồng về sở thı́ch của các user đối với các item, được mô tả cu ̣ thể như sau:.
- Giả sử, cho ma trận dữ liệu user-item-rating như Hình 2..
- Gọi là tập các item cần dự đoán xếp hạng của user và là tâ ̣p các item của user ′ tương ứng với các item cần dự đoán xếp ha ̣ng của user có giá tri ̣ xếp ha ̣ng (với là ngưỡng sở thích nhận giá trị thuộc tập .
- Sau khi duyệt qua tất cả các user, mỗi item trong tập sẽ chứa số lần được đánh giá xếp hạng.
- Hình 2: Ma trận dữ liệu user-item-rating Giải thuâ ̣t luâ ̣t bı̀nh cho ̣n số đông kết hợp ngưỡng sở thı́ch để gợi ý item cho user được biểu diễn bằng ngôn ngữ giả như sau:.
- Nếu giá tri ̣ xếp hạng của user u' cho item i lớn hơn hoặc bằng ngưỡng.
- tập dữ liệu huấn luyện – đầu vào u : user đang xét – đầu vào.
- threshold : là ngưỡng sở thı́ch nhận giá trị thuộc tập R .
- N : số người dùng.
- 5 KẾT QUẢ THỰC NGHIỆM 5.1 Dữ liệu.
- du ̣ng nghi thức kiểm tra k-fold cross validation với k = 5, dùng đô ̣ đo precision@5 và precision@10 (tı̉.
- Kết quả này đã cho thấy phương pháp đề xuất rút ngắn thời gian huấn luyện trong khi độ chính xác không thua kém so với kỹ thuật phổ biến là user-kNN, vì vậy rất phù hợp cho các hệ thống đòi hỏi phải cập nhật/huấn luyện lại mô hình trực tuyến (online training/updating) sau mỗi lần đánh giá của người dùng để có những gợi ý tốt nhất..
- Đối với các tâ ̣p dữ liê ̣u MovieLens, luâ ̣t bı̀nh cho ̣n số đông kết hợp ngưỡng sở thı́ch cho kết quả.
- gơ ̣i ý tương đương với kết quả gợi ý khi dùng kỹ.
- thı́ch càng lớn thời gian thực thi giải thuâ ̣t càng giảm.
- đông kết hơ ̣p ngưỡng sở thı́ch càng thể hiê ̣n ưu điểm vươ ̣t trô ̣i so với kỹ thuâ ̣t User-KNN mă ̣c dù.
- Hình 3: So sánh độ chính xác của các phương pháp trên tập dữ liệu Movielens 100k.
- Hình 4: So sánh độ chính xác của các phương pháp trên tập dữ liệu Flixster 1M.
- Hình 5: So sánh độ chính xác của các phương pháp trên tập dữ liệu Movielens 1M.
- Hình 6: So sánh thời gian thực thi (tính bằng giây) của các phương pháp trên 2 tập dữ liệu lớn:.
- Hình 7: So sánh độ chính xác và thời gian thực thi của các phương pháp trên tập dữ liệu Flixster (10k users, 13k items).
- Qua bài viết này, chúng tôi đã giới thiệu về hệ thống gợi ý, vấn đề dự đoán xếp hạng, các nhóm giải thuật chính trong hệ thống gợi ý và đề xuất một phương pháp mới, đơn giản nhưng khá hiệu quả: Phương pháp luâ ̣t bı̀nh cho ̣n số đông kết hợp ngưỡng sở thı́ch để gợi ý sản phẩm cho người dùng trong hệ thống gợi ý dự đoán xếp ha ̣ng.
- Kết quả thử nghiệm trên các tập dữ liệu chuẩn cho thấy phương pháp được đề xuất có thời gian thực hiện nhanh hơn đáng kể so với các phương pháp truyền thống dựa trên lọc cộng tác trong khi độ chính xác cũng được cải thiện vì vậy rất phù hợp cho các hệ thống cần phải cập nhật trực tuyến..
- Ưu điểm của phương pháp đề xuất là công thức tính toán đơn giản, dễ hiểu, giải thuâ ̣t dễ cài đă ̣t, kết quả gợi ý tốt, thời gian thực thi nhanh (so với User KNN) và phù hợp với sở thı́ch của người dùng.
- sản phẩm trong bán hàng trực tuyến sử du ̣ng kỹ thuâ ̣t lo ̣c cô ̣ng tác”, Tạp chı́ Khoa ho ̣c Trường Đa ̣i ho ̣c Cần Thơ, pp.
- đô ̣ng”, Ta ̣p chı́ Khoa ho ̣c Trường Đa ̣i ho ̣c Cần Thơ, 2013..
- Recommender Systems (RecSys 2009), (pp..
- Nghe, “Xây dựng hê ̣ thống gợi ý phim dựa trên mô hı̀nh nhân tố láng giềng”, Ta ̣p chı́ Khoa ho ̣c Trường Đa ̣i ho ̣c Cần Thơ, 2013..
- Recommender systems survey.
- Một giải pháp trong xây dựng Hệ thống gợi ý bài hát