« Home « Kết quả tìm kiếm

Một Mô Hình Đồ Thị Cho Hệ Tư Vấn Lai


Tóm tắt Xem thử

- Mỗi phương pháp khai thác những khía cạnh riêng liên quan đến đặc trưng nội dung hay thói quen sử dụng sản phẩm của người dùng trong quá khứ để dự đoán một danh sách ngắn gọn các sản phẩm phù hợp nhất đối với mỗi người dùng.
- Mô hình cho phép ta dịch chuyển bài toán tư vấn kết hợp về bài toán tư vấn cộng tác, sau đó xây dựng một độ tương tự mới trên đồ thị để xác định mức độ tương tự giữa các cặp người dùng và sản phẩm để sinh ra kết quả dự đoán.
- GIỚI THIỆU HỆ TƯ VẤN Người dùng sử dụng các dịch vụ Internet trực tuyến hiện nay luôn trong tình trạng quá tải thông tin.
- Hệ tư vấn (recommender systems) cung cấp một giải pháp nhằm giảm tải thông tin bằng cách dự đoán và cung cấp một danh sách ngắn các sản phẩm (trang web, bản tin, phim, video…) phù hợp cho mỗi người dùng.
- Cho tập hợp hữu hạn gồm N người dùng U = {u1, u2.
- Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua ma trận đánh giá R={ rix: i = 1, 2, ..N.
- Giá trị rix thể hiện đánh giá của người dùng ui∈U cho một số sản phẩm px∈P.
- Giá trị rix = φ được hiểu người dùng ui chưa đánh giá hoặc chưa bao giờ biết đến sản phẩm px.
- Mỗi sản phẩm x∈P được biểu diễn thông qua |C| đặc trưng nội dung C.
- là vector trọng số các giá trị đặc trưng nội dung sản phẩm x∈P .
- |C|} chính là đầu vào của các hệ thống tư vấn theo nội dung sản phẩm [2, 3, 17].
- Mỗi người dùng x∈P được biểu diễn thông qua |T| đặc trưng nội dung T = {t1, t2.
- Các đặc trưng tq∈T thông thường là thông tin cá nhân của mỗi người dùng (Demographic Information).
- Ví dụ i∈U là một người dùng thì các đặc trưng nội dung biểu diễn người dùng i có thể là T={giới tính, độ tuổi, nghề nghiệp, trình độ.
- vi|T|} là vector trọng số biểu diễn các giá trị đặc trưng nội dung người dùng i∈U.
- chính là đầu vào của các hệ thống tư vấn theo nội dung thông tin người dùng [3, 13].
- Ký tự q luôn được dùng để chỉ tập đặc trưng nội dung người dùng trong các mục tiếp theo của bài báo.
- Tiếp đến ta ký hiệu, Pi⊆P là tập các sản phẩm x∈P được đánh giá bởi người dùng i∈U và Ux⊆U là tập các người dùng i∈U đã đánh giá sản phẩm x∈P.
- Với một người dùng cần được tư vấn i∈U (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng tích cực), nhiệm vụ của các phương pháp tư vấn là gợi ý K sản phẩm x∈(P\Pi) phù hợp nhất đối với người dùng i.
- Hệ tư vấn theo nội dung xây dựng phương pháp dự đoán dựa trên ma trận trọng số các đặc trưng nội dung sản phẩm W={wxs} hoặc ma trận trọng số các đặc trưng nội dung Đỗ Thị Liên, Nguyễn Xuân Anh, Nguyễn Duy Phương, Từ Minh Phương 431 người dùng V ={viq .
- Pazzani [13] đề xuất phương pháp biểu diễn hồ sơ sản phẩm bằng một vector trọng số các đặc trưng nội dung người dùng.
- Theo phương pháp này, các đặc trưng nội dung sản phẩm đóng vai trò trung tâm và xem xét đánh giá người dùng của lọc cộng tác như các giá trị đặc trưng giả định để thêm vào quá trình dự đoán [17, 18].
- Balisico và Hofman [21] sử dụng hàm nhân để kết hợp mức độ tương tự từ người dùng đến người dùng, sản phẩm đến sản phẩm, sau đó áp dụng máy vector hỗ trợ để sinh ra dự đoán.
- Aggarwal [23] biểu diễn mối quan hệ giữa các cặp người dùng như một đồ thị có hướng, trong đó mỗi cạnh được thiết lập phản ánh mức độ tương tự giữa hai người dùng.
- Phương pháp dự đoán được thực hiện bằng cách tính toán trọng số đường đi ngắn nhất giữa các cặp người dùng.
- Lien [7] đề xuất xây dựng độ đo tương tự giữa các cặp người dùng hoặc sản phẩm bằng mô hình đồ thị hai phía có trọng số.
- Phuong [6] đề xuất phương pháp kết hợp giữa lọc cộng tác và lọc nội dung bằng cách xây dựng mối liên hệ giữa người dùng và tập đặc trưng nội dung sản phẩm.
- Phương pháp dự đoán được thực hiện bằng cách tổ hợp tuyến tính trọng số các đường đi từ đỉnh người dùng đến đỉnh sản phẩm.
- Mô hình được xây dựng bằng cách lấy lọc cộng tác làm trung tâm, xây dựng hồ sơ người dùng dựa trên ma trận đánh giá để thiết lập nên mối quan hệ trực tiếp giữa tập người dùng với tập đặc trưng nội dung sản phẩm.
- Tiếp đến, chúng tôi tiến hành xây dựng hồ sơ sản phẩm cũng dựa trên ma trận đánh giá để thiết lập nên mối quan hệ trực tiếp giữa tập sản phẩm và tập đặc trưng nội dung người dùng.
- Dựa trên mối quan hệ giữa tập người dùng với tập đặc trưng nội dung sản phẩm và mối quan hệ giữa tập sản phẩm với tập đặc trưng nội dung người dùng, chúng tôi tìm cách xác định được mối quan hệ tiềm ẩn giữa tập đặc trưng sản phẩm và tập đặc trưng người dùng.
- DỊCH CHUYỂN BÀI TOÁN TƯ VẤN KẾT HỢP VỀ BÀI TOÁN LỌC CỘNG TÁC Như đã giới thiệu ở trên, bài toán tư vấn kết hợp thực hiện dự đoán dựa trên tập đánh giá của người dùng cho các sản phẩm, cùng với tập đặc trưng nội dung sản phẩm và đặc trưng người dùng.
- Trong mục này, chúng tôi đề xuất phương pháp dịch chuyển bài toán tư vấn kết hợp về bài toán tư vấn cộng tác thuần túy bằng cách xây dựng hồ sơ người dùng và hồ sơ sản phẩm của dựa vào đánh giá tự nhiên của người dùng đối với các sản phẩm trong quá khứ.
- Trên cơ sở hồ sơ người dùng và hồ sơ sản phẩm đã được xây dựng, chúng tôi tìm cách xác định mối quan hệ tiềm ẩm giữa tập đặc trưng nội dung người dùng và tập đặc trưng nội dung sản phẩm để thu được mô hình giống với mô hình 432 4 MỘ ỘT MÔ HÌNH ĐỒ Ồ THỊ CHO HỆ TƯ T VẤN LAI bài b toán tư vấnn cộng tác.
- Mỗi người dùng i∈ U được biểuu diễn thông qua nội q |T| đặc trrưng nội dungg T = {t1, t2.
- maa trận đặc trưnng nội dung người n dùng T = {tiq:i=1, 2.
- Tập đỉnh Ω của đđồ thị được xác dạng đồ thị c định theo công c thức (4) chính c là hợp ccủa tập người dùng U, tập sản s phẩm P, tậập đặc trưng nnội dung sản pphẩm C và tập p đặc trưng nội n dung ngườ ời dùng T.
- 4 sản phẩm P = {p1, p2, p 3, p4}.
- Ma trận đặc trưng g nội dung người n dùng T được cho tronng Bảng 3.
- Các cạnnh nối giữa đỉỉnh sản phẩm x∈P với đỉnh h đặc trưng nội n dung sản phẩm p s∈C đượợc đánh trọng số là 1.
- Đỗ Thị Liên, Nguyễn Xuân Anh, Nguyễn Duy Phương, Từ Minh Phương 433 Dựa trên biểu diễn đồ thị, phương pháp tư vấn cộng tác được thực hiện dựa trên các cạnh nối giữa đỉnh người dùng i∈U và đỉnh sản phẩm x∈P với trọng số rix [5].
- Phương pháp tư vấn theo nội dung sản phẩm được thực hiện trên các cạnh nối giữa đỉnh sản phẩm x∈P và đỉnh đặc trưng nội dung sản phẩm s∈C [7].
- Phương pháp tư vấn theo nội dung người dùng được thực hiện trên các cạnh nối giữa đỉnh người dùng i∈U và đỉnh đặc trưng nội dung người dùng t∈T [17].
- Xây dựng hồ sơ người dùng dựa trên ma trận đánh giá Phương pháp tư vấn theo nội dung thực hiện dự đoán các sản phẩm có nội dung thông tin hay mô tả hàng hóa tương tự với những sản phẩm mà người dùng đã từng sử dụng hoặc truy nhập trong quá khứ.
- Chất lượng của các phương pháp tư vấn theo nội dung phụ thuộc vào phương pháp trích chọn đặc trưng để biểu diễn vector đặc trưng nội dung sản phẩm và vector hồ sơ sử dụng sản phẩm của người dùng.
- Hạn chế lớn nhất của phương pháp trích chọn đặc trưng hiện nay là nhiều đặc trưng nội dung không đóng góp vào việc xác định mức độ tương tự giữa vector hồ sơ người dùng và vector đặc trưng sản phẩm vẫn được tham gia quá trình tính toán [3, 5].
- Để hạn chế điều này, chúng tôi đề xuất phương pháp xây dựng hồ sơ sử dụng sản phẩm của người dùng thông qua các giá trị đánh giá của hệ tư vấn cộng tác, sau đó thiết lập mối quan hệ trực tiếp giữa người dùng và từng đặc trưng sản phẩm để nâng cao hiệu quả tư vấn.
- Để xây dựng được hồ sơ sử dụng sản phẩm của người dùng ta cần thực hiện hai nhiệm vụ: xác định được tập các sản phẩm người dùng đã từng truy cập hay sử dụng trong quá khứ và ước lượng trọng số mỗi đặc trưng nội dung sản phẩm trong hồ sơ người dùng [2, 17].
- Gọi Pi⊆P được xác định theo công thức (6) là tập sản phẩm người dùng i∈U đã đánh giá các sản phẩm x∈P.
- Khi đó, Pi chính là tập sản phẩm người dùng đã từng truy cập trong quá khứ được các phương pháp tư vấn theo nội dung sử dụng trong khi xây dựng hồ sơ người dùng.
- Vấn đề còn lại là làm thế nào ta ước lượng được trọng số mỗi đặc trưng s∈C đối với mỗi hồ sơ người dùng i∈U.
- Khi đó, |ListItem(i , s)| chính là số lần người dùng i∈U sử dụng các sản phẩm x∈P chứa đựng đặc trưng s∈C trong quá khứ.
- (7) Dựa trên Pi và ListItem( i, s) các phương pháp tư vấn theo nội dung ước lượng được trọng số wis phản ánh mức độ quan trọng của đặc trưng nội dung s đối với người dùng i.
- Phương pháp phổ dụng nhất thường được sử dụng trong xây dựng hồ sơ người dùng là kỹ thuật tf-idf [17].
- Tuy nhiên, trong khi quan sát bài toán tư vấn cộng tác chúng tôi nhận thấy bản thân nó đã tồn tại một phép đánh giá tự nhiên của người dùng đối với sản phẩm thông qua giá trị đánh giá rix.
- Giá trị rix phản ánh mức độ ưa thích của người dùng sau khi đã sử dụng sản phẩm và đưa ra quan điểm của mình đối với sản phẩm.
- Nếu giá trị |ListItem(i, s)| vượt quá một ngưỡng θ nào đó thì trọng số đặc trưng nội dung sản phẩm s∈C đối với người dùng i∈U là wis được tính bằng trung bình cộng của tất cả các giá trị đánh giá.
- Bằng cách này ta có thể hạn chế được một số đặc trưng nội dung ít được người dùng quan tâm nhưng vẫn được đánh giá với trọng số cao.
- Giá trị wis được ước lượng theo (8) phản ánh quan điểm của người dùng i∈U đối với các đặc trưng nội dung sản phẩm s∈C cũng chính là hồ sơ người dùng i∈U đã sử dụng các đặc trưng nội dung s∈C trong quá khứ.
- Dựa trên nhận xét này, chúng tôi mở rộng đồ thị hai phía của bài toán tư vấn cộng tác nguyên thủy (đồ thị con ở giữa) bằng cách giữ nguyên tập đỉnh ở phía người dùng U, tập đỉnh phía sản phẩm được mở rộng là P∪C.
- Liên kết giữa đỉnh người dùng i∈U và đỉnh sản phẩm x∈P được thiết lập nếu rix≠ 0.
- Liên kết giữa đỉnh người dùng i∈U và đỉnh đặc trưng sản phẩm s∈C được thiết lập nếu wis≠ 0.
- M Mở rộng theo pphía sản phẩm 3.3.
- 3 Xây dựngg hồ sơ sản ph hẩm dựa trên n ma trận đán nh giá Tương tự như hồ sơ ngư ười dùng, hồ sơ sản phẩm lưu l trữ lại vết tích các đặc ttrưng nội dungg người dùng đã từng sử dụng d sản phẩmm.
- Do vậy, chúng c tôi đề xuất x phương phháp trích chọnn đặc trưng nộ ội dung người dùng có cùngg mức độ đánhh giá với giá trị đánh giá rix.
- N Nếu giá trị |ListtItem(i, s)| vượt quá một ngưỡng n θ nào đó thì trọng số đặc trưng nnội dung người dùng q∈T đối với sản pphẩm x∈P là vxq được tính bằng b trung bình b cộng của tất cả các giáá trị đánh giá.
- Liên kkết giữa đỉnh sản phẩm x∈P và đỉnh người n dùng i∈U được thiếết lập nếu rix≠ 0.
- Liên kết giữa g đỉnh sảnn phẩm x∈P vvà đỉnh đặc trưng người dùng d q∈T đượ ợc thiết lập nnếu vxq≠ 0.
- Mở rộng theo phíaa người dùng 3.4.
- n Kiểu quan sát thứ nhấất được tiến hàành từ hồ sơ người n dùng đếến các đặc trưưng nội dung ssản phẩm.
- Gọi UserrAttr(i,s) là tập người dùng i∈U có đặcc trưng q∈T đđã đánh giá cáác sản phẩm x∈P chứa đựnng đặc trưng s ∈C được xác c định theo công c thức (15.
- Trong đó, đ wis là hồ sơơ người dùng i∈U được xácc định theo (8.
- Trong T trường hợp khác, aqss được tính tổnng trọng số cáác đặc trưng s trong hồ sơ người dùng nnhân với 1/θ.
- Bằng cách này n chúng ta có c thể hạn chhế được các đặc trưng của người dùng hoặch sản phẩmm ít được ngưười dùng sử dụ ụng nhưng được đ đánh giá với trọng số ccao.
- Quan sát từ hồ sơ sản phẩm đến cáác đặc trưng người n dùng m x∈P có đặc trưng nội dun Gọi Ps là tập sản phẩm ng s∈C được xác x định theo công thức (17).
- Tổng hợp p giữa các kiểểu quan sát Như đã trìình bày ở trênn, giá trị aqs đưược xác định theo (16) và bqs được xác đđịnh theo (19) đều phản ánh h thói quen tự ự nhiên sử dụụng sản phẩm ccủa tập người dùng có đặc trưng t q đối vớ ới tập sản phẩmm có đặc trưngg s.
- Phương pháp tư vấn kết hợp dựa vào người dùng Phương pháp tư vấn cộng tác dựa vào người dùng (UserBased) thực hiện ước lượng mức độ tương tự giữa các cặp người dùng dựa vào các độ đo tương tự để từ đó sinh ra dự đoán các sản phẩm mới phù hợp với người dùng cần được tư vấn [12, 15].
- Do tính chất thưa thớt của ma trận đánh giá nên việc xác định mức độ tương tự giữa các cặp người dùng gặp nhiều hạn chế [14].
- Trong đó, việc ước lượng mức độ tương tự giữa các cặp người dùng không chỉ thực hiện trên ma trận đánh giá mà được mở rộng cho toàn bộ hồ sơ người dùng.
- Tính toán mức độ tương tự giữa các cặp người dùng.
- Gọi uij là mức độ tương tự giữa người dùng i∈U và người dùng j∈U.
- Khi đó, độ tương quan Pearson giữa người dùng i∈U và người dùng j∈U được mở rộng trên tập đánh giá người dùng và hồ sơ người dùng theo công thức (22.
- Xác định tập láng giềng cho người dùng cần tư vấn.
- Tại bước này ta chỉ cần sắp xếp các giá trị uij theo thứ tự giảm dần, trong đó i∈U là người dùng cần được tư vấn các sản phẩm x∈P.
- Sau đó chọn tập K người dùng đầu tiên làm tập láng giềng của người dùng i [15].
- Ký hiệu tập láng giềng của người dùng i∈U là Ki.
- Dự đoán quan điểm của người dùng đối với các sản phẩm mới.
- Phương pháp phổ biến nhất để sinh ra dự đoán quan điểm của người dùng i∈U cho sản phẩm mới x∈P theo công thức (28)[15.
- Chọn K sản phẩm mới có rix cao nhất tư vấn cho người dùng i.
- Hiệu quả của phương pháp ItemBased phụ thuộc vào tập giá trị đánh giá người dùng R = (rix) được xác định theo (1).
- Tính toán mức độ tương tự giữa các cặp sản phẩm.
- Khi đó, độ tương quan Pearson giữa sản phẩm x∈P và sản phẩm y∈P được mở rộng trên tập đánh giá người dùng và hồ sơ sản phẩm theo công thức (29.
- Xác định tập láng giềng cho sản phẩm cần tư vấn.
- Phương pháp phổ biến để sinh ra dự đoán quan điểm của người dùng i∈U cho sản phẩm mới x∈P theo công thức (35)[16.
- Tổng trọng số tất cả các đường đi từ đỉnh i∈U đến đỉnh j∈U chính là độ tương tự giữa hai người dùng này.
- K người dùng có tổng trọng số các đường đi từ đỉnh i∈U đến đỉnh j∈U có trọng số lớn nhất chính là tập láng giềng của người dùng i.
- Sau đó sử dụng tập láng giềng để sinh ra dự đoán cho người dùng i.
- Để hạn chế điều này, chúng tôi tiến hành mở rộng độ dài đường đi từ đỉnh người dùng đến đỉnh người dùng để tận dụng mối liên hệ gián tiếp giữa các cặp người dùng và các cặp đặc trưng nội dung khác nhau.
- Hoặc u2 thích đặc trưng c1, c1 phù hợp với tập người dùng có đặc trưng t4, t4 phù hợp với sản phẩm p3, u3 thích p3 nên cũng gián tiếp u2 tương tự với u3 ở một mức độ nào đó.
- Vì đồ thị tư vấn kết hợp là đồ thị hai phía nên các đường đi từ đỉnh người dùng đến đỉnh người dùng luôn có độ dài chẵn