« Home « Kết quả tìm kiếm

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn


Tóm tắt Xem thử

- Tuy nhiên, lọc cộng tác gặp phải vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới cần được tiếp tục nghiên cứu giải quyết..
- Các phương pháp lọc kết hợp hiện nay vẫn hạn chế trong biểu diễn và ước lượng mức độ ảnh hưởng của mỗi đặc trưng nội dung đến thói quen sử dụng sản phẩm của người dùng..
- Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán nhu cầu người dùng trong trường hợp dữ liệu thưa, cũng như trong trường hợp có cả dữ liệu sở thích và thông tin nội dung..
- Mỗi luật biểu diễn nhu cầu thông tin người dùng hoặc một mẫu thông tin cần lọc.
- phẩm Sản phẩm.
- luyện Thông tin đặc tả người dùng.
- Phản hồi người dùng.
- Người dùng Nhà cung cấp.
- Lọc theo nội dung là phương pháp thực hiện dựa trên việc so sánh nội dung thông tin hay mô tả hàng hóa, để tìm ra những sản phẩm tương tự với những gì mà người dùng đã từng quan tâm để giới thiệu cho họ những sản phẩm này.
- Những vấn đề cần tiếp tục nghiên cứu của lọc nội dung là vấn đề trích chọn đặc trưng và người dùng mới..
- Lọc cộng tác khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm để đưa ra dự đoán và phân bổ các sản phẩm cho người dùng này.
- Những vấn đề cần tiếp tục nghiên cứu của lọc cộng tác là vấn đề dữ liệu thưa, vấn đề người dùng mới và sản phẩm mới..
- Lọc cộng tác cho lại kết quả tốt hơn so với lọc nội dung và có thể lọc bất kỳ dạng thông tin nào nhưng gặp phải khó khăn trong trường hợp dữ liệu thưa, người dùng mới và sản phẩm mới..
- Giả sử hệ gồm N người dùng U = {u 1.
- M sản phẩm P = {p 1 , p 2.
- Nhiệm vụ của lọc cộng tác là xây dựng phương pháp dự đoán và phân bổ cho người dùng hiện thời u a các sản phẩm phù hợp nhất với u a chưa được đánh giá dựa trên ma trận đánh giá R = (r ij.
- Đối với các hệ thống lọc cộng tác, số lượng người dùng.
- Tuy vậy, mỗi người dùng chỉ đưa ra một số rất ít các.
- Đặc biệt, vấn đề người dùng mới cần có những đánh giá ban đầu..
- Dựa trên đánh giá của người dùng về những sản phẩm khác nhau, với mỗi người dùng, một mô hình phân loại sẽ được xây dựng và huấn luyện.
- Cho ma trận đánh giá người dùng R = (r ij ) như được trình bày trong mục 2.1.
- Các hàng của ma trận tương ứng với tập người dùng.
- các phần tử r ij của ma trận tương ứng với đánh giá của người dùng đối với sản phẩm.
- Để thực hiện dự đoán, một bộ phân loại sẽ được xây dựng riêng cho mỗi người dùng..
- mỗi đặc trưng tương ứng với một người dùng khác người dùng cần dự đoán.
- Nhãn phân loại cho các ví dụ huấn luyện là các đánh giá khác  của người dùng hiện thời..
- Với tập N người dùng U.
- trong đó y n j = r nj là đánh giá của người dùng n cho sản phẩm j, và x nj.
- r Nj ) là đánh giá của tất cả người dùng cho sản phẩm j trừ người dùng n.
- Trong đó, K là số vòng lặp, N là số lượng người dùng..
- Trong trường hợp đủ dữ liệu, cụ thể là khi biết trước nhiều đánh giá của người dùng trong tập kiểm tra (N=20), phương pháp GentleBoost cho kết quả tốt hơn so với MC Boost..
- 100 người dùng.
- 200 người dùng.
- 300 người dùng.
- 1000 người dùng KPC .
- 2000 người dùng KPC .
- 6000 người dùng KPC .
- Ưu điểm chủ yếu của phương pháp này là việc phân loại đồng thời từng nhóm người dùng và sử dụng thông tin từ những người dùng tương tự nhau, nhờ vậy cải thiện độ chính xác phân loại khi dữ liệu đánh giá thưa thớt(ví dụ khi người dùng cần dự đoán chỉ đánh giá rất ít sản phẩm trước đó).
- Giả sử hệ có N người dùng U = {u 1 , u 2.
- u N } và M sản phẩm P = {p 1 , p 2.
- Mỗi người dùng u i U đưa ra đánh giá của mình đối với sản phẩm p j P bằng một số r ij .
- Nếu người dùng u i đã thích hợp phân bổ sản phẩm p j.
- Nếu người dùng u i không thích hợp phân bổ sản phẩm p j (3.1) Nếu người dùng u i chưa đánh giá sản phẩm p j.
- Nhiệm vụ của lọc kết hợp là dự đoán cho người dùng hiện thời u a những sản phẩm p k P chưa được u a đánh giá dựa trên ma trận đánh giá r ij và các đặc trưng nội dung C.
- Trong đó, x ij  1 tương ứng với trạng thái người dùng u i đã đánh giá sản phẩm p j , x ij  0 tương ứng với trạng thái người dùng chưa đánh giá sản phẩm p j.
- (3.3) Đồ thị biểu diễn đánh giá của người dùng đối với các sản phẩm (Gọi tắt là Người.
- dùng - Sản phẩm) G =(V, E) được biểu diễn theo ma trận X, trong đó tập đỉnh V = UP (U là tập người dùng, P là tập sản phẩm).
- tập cạnh E bao gồm tập các cạnh biểu diễn đánh giá của người dùng đối với sản phẩm.
- Cạnh nối giữa đỉnh u i U và đỉnh p j P được thiết lập nếu người dùng u i đã đánh giá sản phẩm p j ( x ij  1.
- Như vậy, trong biểu diễn này, đồ thị Người dùng- Sản phẩm có hai loại ca ̣nh: Cạnh có trọng số dương r ij =+1 biểu diễn người dùng u i ―thích‖ sản phẩm p j , cạnh có trọng số âm r ij.
- 1 biểu diễn người dùng u i ―không thích‖ sản phẩm p j.
- Cho đồ thị Người dùng - Sản phẩm G =(V, E) đươ ̣c biểu diễn theo ma trâ ̣n X = (x ij ) cấp N×M như đã trình bày trong Mục 3.2.1.
- Những sản phẩm nào có trọng số cao nhất sẽ được dùng để tư vấn cho người dùng hiện thời..
- Do vâ ̣y, các đường đi từ đỉnh người dùng đến đỉnh sản phẩm luôn có đô ̣ dài lẻ..
- Trong đó, L là độ dài đường đi từ đỉnh người dùng đến đỉnh sản phẩm, N là số cột của ma trận X.
- K sản phẩm có trọng số cao nhất chưa được người dùng đánh giá Các bước thực hiện:.
- L cao nhất chưa được đánh giá để tư vấn cho người dùng hiện thời..
- của người dùng đối với sản phẩm, phương pháp dự đoán trên đồ thị G - chỉ được thực hiện trên những đánh giá ―không thích‖ của người dùng đối với sản phẩm.
- K sản phẩm có trọng số nhỏ nhất chưa được người dùng đánh giá Các bước thực hiện:.
- L thấp nh ất chưa được người dùng đánh giá ra khỏi danh sách các sản phẩm cần tư vấn cho người dùng hiện thời..
- Đối với các đặc trưng nội dung, mô hình đề xuất phương pháp xác định mức độ quan trọng của từng đặc trưng nội dung cụ thể đối với mỗi người dùng dựa trên ước lượng sự tương tự theo nội dung và đánh giá người dùng..
- Phương pháp dự đoán được thực hiện dựa trên mức độ đóng góp của các đánh giá người dùng và đặc trưng nội dung sản phẩm người dùng ưa thích..
- Cho ma trận đánh giá người dùng R = (r ij ) được xác định theo công thức (3.1), ma trận nội dung sản phẩm Y = (y ij ) được xác định theo công thức (3.2), ma trận X = (x ij ) được xác định theo công thức 3.6.
- Chọn K sản phẩm có trọng số x  L cao nhất chưa được đánh giá để tư vấn cho người dùng hiện thời..
- Người dùng Sản phẩm.
- Ma trận Sản phẩm-Nội dung.
- Sản phẩm Nội dung.
- Ma trận người dùng sản phẩm X.
- Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm 3.3.2.
- Gọi s ik là số các sản phẩm p j có nội dung c k mà người dùng u i đã đánh giá.
- Giá trị s ik chính là số đường đi độ dài 2 từ đỉnh người dùng u i đến đỉnh đặc trưng nội dung c k thông qua các đỉnh trung gian p j.
- Gọi w ik là hiệu số giữa tập các sản phẩm p j có nội dung c k người dùng u i đánh giá.
- ―thích hợp‖ và tập các sản phẩm p j có nội dung c k người dùng u i đánh giá ―không thích hợp‖..
- Khi đó, mức độ quan trọng của đặc trưng nội dung c k đối với người dùng u i được xác định theo công thức (3.11)..
- 20, nghĩa là nếu người dùng u i đánh giá các sản phẩm p j có nội dung c k lớn hơn 20 thì v ik được xác định theo 3.10, trường hợp còn lại v ij được tính theo 3.11.
- Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm 3.3.3.
- Phương pháp lọc cộng tác có thể dễ dàng cài đặt bằng mô hình đồ thị thông qua việc tính toán các đuờng đi độ dài 3 từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh đánh giá.
- Những sản phẩm nào có số đường đi độ dài 3 nhiều nhất đến nó sẽ được phân bổ cho người dùng hiện thời..
- Những sản phẩm nào có nhiều đường đi nhất thông qua đỉnh đặc trưng nội dung sẽ được phân bổ cho người dùng hiện thời..
- Những sản phẩm nào có số đường đi nhiều nhất đến nó sẽ được dùng để phân bổ cho người dùng hiện thời..
- Như đã trình bày ở trên, phương pháp dự đoán đề xuất dựa trên việc ước lượng mức độ quan trọng các đặc trưng nội dung cho mỗi người dùng.
- Đường đi loại 1 luôn có độ dài 2 đi từ đỉnh người dùng u i U thông qua các cạnh nối đỉnh nội dung c k  C đến đỉnh sản phẩm p j P.
- Những đường đi này phản ánh sự tương tự của người dùng sản phẩm đối với các đặc trưng nội dung.
- Đường đi loại 2 bao gồm các đường đi từ đỉnh người dùng đến đỉnh sản phẩm chưa được người dùng đánh giá thông qua các đỉnh sản phẩm và đỉnh người dùng trung gian.
- Tất cả các đường đi từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh trung gian đều có trọng số dương.
- Tất cả các đường đi từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh trung gian đều có trọng số âm.
- Điều này có nghĩa hai người dùng đều tương tự với p 6 (đều là không thích hợp).
- Khi đó, khả năng tư vấn p r cho người dùng u i là W r i được xác định theo công thức (3.14)..
- Ma trận biểu diễn các cạnh Người dùng - Nội dung..
- K sản phẩm có trọng số cao nhất chưa được người dùng đánh giá Các bước thực hiện:.
- Phương pháp.
- Điều đó chứng tỏ việc xác định mức độ ưa thích của người dùng đối với những đặc trưng nội dung sản phẩm có ý nghĩa đặc biệt quan trọng để nâng cao chất lượng dự đoán cho các hệ thống tư vấn..
- Mô hình cho phép biểu diễn tất cả các đánh giá người dùng trên đồ thị kết hợp.
- Trên cơ sở đó, xây dựng mô hình kết hợp giữa lọc cộng tác và lọc nội dung bằng cách xác định mức độ quan trọng của mỗi đặc trưng nội dung đối với từng người dùng riêng biệt để thực hiện dự đoán..
- Lọc cộng tác có thể lọc được mọi loại thông tin nhưng gặp phải vấn đề dữ liệu thưa, một người dùng mới chưa có đánh giá nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá.
- Để hạn chế ảnh hưởng của vấn đề dữ liệu thưa, luận án đề xuất sử dụng phương pháp học đa nhiệm vào lọc cộng tác nhằm sử dụng tập đặc trưng chung của tập người dùng khác nhau vào quá trình huấn luyện.
- Những đặc trưng chung tìm được đóng vai trò chia sẻ thông tin trong tập người dùng tương ứng không chỉ nâng cao được kết quả dự đoán mà còn hạn chế.
- Rõ ràng, giữa hai cách tiếp cận lọc cộng tác và lọc nội dung dựa trên quan điểm khác nhau để tìm ra những sản phẩm tương tự đối với người dùng..
- Để giải quyết mâu thuẫn này, ta có thể dựa vào việc quan sát tất cả đánh giá người dùng đối với mỗi đặc trưng nội dung cụ thể từ đó tìm ra mức độ quan trọng của các đặc trưng nội dung cho người dùng.
- Hệ thống cho lại kết quả tư vấn tốt trên bộ dữ liệu MovieLens gồm 39000 phim và 6040 người dùng.