« Home « Kết quả tìm kiếm

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Tóm tắt Xem thử repository.vnu.edu.vn Tải xuống

- Tuy nhiên, lọc cộng tác gặp phải vấn đề dữ liệu thưa, người dùng mới và sản phẩm mới cần được tiếp tục nghiên cứu giải quyết..
- Các phương pháp lọc kết hợp hiện nay vẫn hạn chế trong biểu diễn và ước lượng mức độ ảnh hưởng của mỗi đặc trưng nội dung đến thói quen sử dụng sản phẩm của người dùng..
- Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán nhu cầu người dùng trong trường hợp dữ liệu thưa, cũng như trong trường hợp có cả dữ liệu sở thích và thông tin nội dung..
- Mỗi luật biểu diễn nhu cầu thông tin người dùng hoặc một mẫu thông tin cần lọc.
- phẩm Sản phẩm.
- luyện Thông tin đặc tả người dùng.
- Phản hồi người dùng.
- Người dùng Nhà cung cấp.
- Lọc theo nội dung là phương pháp thực hiện dựa trên việc so sánh nội dung thông tin hay mô tả hàng hóa, để tìm ra những sản phẩm tương tự với những gì mà người dùng đã từng quan tâm để giới thiệu cho họ những sản phẩm này.
- Những vấn đề cần tiếp tục nghiên cứu của lọc nội dung là vấn đề trích chọn đặc trưng và người dùng mới..
- Lọc cộng tác khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm để đưa ra dự đoán và phân bổ các sản phẩm cho người dùng này.
- Những vấn đề cần tiếp tục nghiên cứu của lọc cộng tác là vấn đề dữ liệu thưa, vấn đề người dùng mới và sản phẩm mới..
- Lọc cộng tác cho lại kết quả tốt hơn so với lọc nội dung và có thể lọc bất kỳ dạng thông tin nào nhưng gặp phải khó khăn trong trường hợp dữ liệu thưa, người dùng mới và sản phẩm mới..
- Giả sử hệ gồm N người dùng U = {u 1.
- M sản phẩm P = {p 1 , p 2.
- Nhiệm vụ của lọc cộng tác là xây dựng phương pháp dự đoán và phân bổ cho người dùng hiện thời u a các sản phẩm phù hợp nhất với u a chưa được đánh giá dựa trên ma trận đánh giá R = (r ij.
- Đối với các hệ thống lọc cộng tác, số lượng người dùng.
- Tuy vậy, mỗi người dùng chỉ đưa ra một số rất ít các.
- Đặc biệt, vấn đề người dùng mới cần có những đánh giá ban đầu..
- Dựa trên đánh giá của người dùng về những sản phẩm khác nhau, với mỗi người dùng, một mô hình phân loại sẽ được xây dựng và huấn luyện.
- Cho ma trận đánh giá người dùng R = (r ij ) như được trình bày trong mục 2.1.
- Các hàng của ma trận tương ứng với tập người dùng.
- các phần tử r ij của ma trận tương ứng với đánh giá của người dùng đối với sản phẩm.
- Để thực hiện dự đoán, một bộ phân loại sẽ được xây dựng riêng cho mỗi người dùng..
- mỗi đặc trưng tương ứng với một người dùng khác người dùng cần dự đoán.
- Nhãn phân loại cho các ví dụ huấn luyện là các đánh giá khác  của người dùng hiện thời..
- Với tập N người dùng U.
- trong đó y n j = r nj là đánh giá của người dùng n cho sản phẩm j, và x nj.
- r Nj ) là đánh giá của tất cả người dùng cho sản phẩm j trừ người dùng n.
- Trong đó, K là số vòng lặp, N là số lượng người dùng..
- Trong trường hợp đủ dữ liệu, cụ thể là khi biết trước nhiều đánh giá của người dùng trong tập kiểm tra (N=20), phương pháp GentleBoost cho kết quả tốt hơn so với MC Boost..
- 100 người dùng.
- 200 người dùng.
- 300 người dùng.
- 1000 người dùng KPC .
- 2000 người dùng KPC .
- 6000 người dùng KPC .
- Ưu điểm chủ yếu của phương pháp này là việc phân loại đồng thời từng nhóm người dùng và sử dụng thông tin từ những người dùng tương tự nhau, nhờ vậy cải thiện độ chính xác phân loại khi dữ liệu đánh giá thưa thớt(ví dụ khi người dùng cần dự đoán chỉ đánh giá rất ít sản phẩm trước đó).
- Giả sử hệ có N người dùng U = {u 1 , u 2.
- u N } và M sản phẩm P = {p 1 , p 2.
- Mỗi người dùng u i U đưa ra đánh giá của mình đối với sản phẩm p j P bằng một số r ij .
- Nếu người dùng u i đã thích hợp phân bổ sản phẩm p j.
- Nếu người dùng u i không thích hợp phân bổ sản phẩm p j (3.1) Nếu người dùng u i chưa đánh giá sản phẩm p j.
- Nhiệm vụ của lọc kết hợp là dự đoán cho người dùng hiện thời u a những sản phẩm p k P chưa được u a đánh giá dựa trên ma trận đánh giá r ij và các đặc trưng nội dung C.
- Trong đó, x ij  1 tương ứng với trạng thái người dùng u i đã đánh giá sản phẩm p j , x ij  0 tương ứng với trạng thái người dùng chưa đánh giá sản phẩm p j.
- (3.3) Đồ thị biểu diễn đánh giá của người dùng đối với các sản phẩm (Gọi tắt là Người.
- dùng - Sản phẩm) G =(V, E) được biểu diễn theo ma trận X, trong đó tập đỉnh V = UP (U là tập người dùng, P là tập sản phẩm).
- tập cạnh E bao gồm tập các cạnh biểu diễn đánh giá của người dùng đối với sản phẩm.
- Cạnh nối giữa đỉnh u i U và đỉnh p j P được thiết lập nếu người dùng u i đã đánh giá sản phẩm p j ( x ij  1.
- Như vậy, trong biểu diễn này, đồ thị Người dùng- Sản phẩm có hai loại ca ̣nh: Cạnh có trọng số dương r ij =+1 biểu diễn người dùng u i ―thích‖ sản phẩm p j , cạnh có trọng số âm r ij.
- 1 biểu diễn người dùng u i ―không thích‖ sản phẩm p j.
- Cho đồ thị Người dùng - Sản phẩm G =(V, E) đươ ̣c biểu diễn theo ma trâ ̣n X = (x ij ) cấp N×M như đã trình bày trong Mục 3.2.1.
- Những sản phẩm nào có trọng số cao nhất sẽ được dùng để tư vấn cho người dùng hiện thời..
- Do vâ ̣y, các đường đi từ đỉnh người dùng đến đỉnh sản phẩm luôn có đô ̣ dài lẻ..
- Trong đó, L là độ dài đường đi từ đỉnh người dùng đến đỉnh sản phẩm, N là số cột của ma trận X.
- K sản phẩm có trọng số cao nhất chưa được người dùng đánh giá Các bước thực hiện:.
- L cao nhất chưa được đánh giá để tư vấn cho người dùng hiện thời..
- của người dùng đối với sản phẩm, phương pháp dự đoán trên đồ thị G - chỉ được thực hiện trên những đánh giá ―không thích‖ của người dùng đối với sản phẩm.
- K sản phẩm có trọng số nhỏ nhất chưa được người dùng đánh giá Các bước thực hiện:.
- L thấp nh ất chưa được người dùng đánh giá ra khỏi danh sách các sản phẩm cần tư vấn cho người dùng hiện thời..
- Đối với các đặc trưng nội dung, mô hình đề xuất phương pháp xác định mức độ quan trọng của từng đặc trưng nội dung cụ thể đối với mỗi người dùng dựa trên ước lượng sự tương tự theo nội dung và đánh giá người dùng..
- Phương pháp dự đoán được thực hiện dựa trên mức độ đóng góp của các đánh giá người dùng và đặc trưng nội dung sản phẩm người dùng ưa thích..
- Cho ma trận đánh giá người dùng R = (r ij ) được xác định theo công thức (3.1), ma trận nội dung sản phẩm Y = (y ij ) được xác định theo công thức (3.2), ma trận X = (x ij ) được xác định theo công thức 3.6.
- Chọn K sản phẩm có trọng số x  L cao nhất chưa được đánh giá để tư vấn cho người dùng hiện thời..
- Người dùng Sản phẩm.
- Ma trận Sản phẩm-Nội dung.
- Sản phẩm Nội dung.
- Ma trận người dùng sản phẩm X.
- Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm 3.3.2.
- Gọi s ik là số các sản phẩm p j có nội dung c k mà người dùng u i đã đánh giá.
- Giá trị s ik chính là số đường đi độ dài 2 từ đỉnh người dùng u i đến đỉnh đặc trưng nội dung c k thông qua các đỉnh trung gian p j.
- Gọi w ik là hiệu số giữa tập các sản phẩm p j có nội dung c k người dùng u i đánh giá.
- ―thích hợp‖ và tập các sản phẩm p j có nội dung c k người dùng u i đánh giá ―không thích hợp‖..
- Khi đó, mức độ quan trọng của đặc trưng nội dung c k đối với người dùng u i được xác định theo công thức (3.11)..
- 20, nghĩa là nếu người dùng u i đánh giá các sản phẩm p j có nội dung c k lớn hơn 20 thì v ik được xác định theo 3.10, trường hợp còn lại v ij được tính theo 3.11.
- Đồ thị thiết lập liên kết giữa người dùng và nội dung sản phẩm 3.3.3.
- Phương pháp lọc cộng tác có thể dễ dàng cài đặt bằng mô hình đồ thị thông qua việc tính toán các đuờng đi độ dài 3 từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh đánh giá.
- Những sản phẩm nào có số đường đi độ dài 3 nhiều nhất đến nó sẽ được phân bổ cho người dùng hiện thời..
- Những sản phẩm nào có nhiều đường đi nhất thông qua đỉnh đặc trưng nội dung sẽ được phân bổ cho người dùng hiện thời..
- Những sản phẩm nào có số đường đi nhiều nhất đến nó sẽ được dùng để phân bổ cho người dùng hiện thời..
- Như đã trình bày ở trên, phương pháp dự đoán đề xuất dựa trên việc ước lượng mức độ quan trọng các đặc trưng nội dung cho mỗi người dùng.
- Đường đi loại 1 luôn có độ dài 2 đi từ đỉnh người dùng u i U thông qua các cạnh nối đỉnh nội dung c k  C đến đỉnh sản phẩm p j P.
- Những đường đi này phản ánh sự tương tự của người dùng sản phẩm đối với các đặc trưng nội dung.
- Đường đi loại 2 bao gồm các đường đi từ đỉnh người dùng đến đỉnh sản phẩm chưa được người dùng đánh giá thông qua các đỉnh sản phẩm và đỉnh người dùng trung gian.
- Tất cả các đường đi từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh trung gian đều có trọng số dương.
- Tất cả các đường đi từ đỉnh người dùng đến đỉnh sản phẩm thông qua các cạnh trung gian đều có trọng số âm.
- Điều này có nghĩa hai người dùng đều tương tự với p 6 (đều là không thích hợp).
- Khi đó, khả năng tư vấn p r cho người dùng u i là W r i được xác định theo công thức (3.14)..
- Ma trận biểu diễn các cạnh Người dùng - Nội dung..
- K sản phẩm có trọng số cao nhất chưa được người dùng đánh giá Các bước thực hiện:.
- Phương pháp.
- Điều đó chứng tỏ việc xác định mức độ ưa thích của người dùng đối với những đặc trưng nội dung sản phẩm có ý nghĩa đặc biệt quan trọng để nâng cao chất lượng dự đoán cho các hệ thống tư vấn..
- Mô hình cho phép biểu diễn tất cả các đánh giá người dùng trên đồ thị kết hợp.
- Trên cơ sở đó, xây dựng mô hình kết hợp giữa lọc cộng tác và lọc nội dung bằng cách xác định mức độ quan trọng của mỗi đặc trưng nội dung đối với từng người dùng riêng biệt để thực hiện dự đoán..
- Lọc cộng tác có thể lọc được mọi loại thông tin nhưng gặp phải vấn đề dữ liệu thưa, một người dùng mới chưa có đánh giá nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá.
- Để hạn chế ảnh hưởng của vấn đề dữ liệu thưa, luận án đề xuất sử dụng phương pháp học đa nhiệm vào lọc cộng tác nhằm sử dụng tập đặc trưng chung của tập người dùng khác nhau vào quá trình huấn luyện.
- Những đặc trưng chung tìm được đóng vai trò chia sẻ thông tin trong tập người dùng tương ứng không chỉ nâng cao được kết quả dự đoán mà còn hạn chế.
- Rõ ràng, giữa hai cách tiếp cận lọc cộng tác và lọc nội dung dựa trên quan điểm khác nhau để tìm ra những sản phẩm tương tự đối với người dùng..
- Để giải quyết mâu thuẫn này, ta có thể dựa vào việc quan sát tất cả đánh giá người dùng đối với mỗi đặc trưng nội dung cụ thể từ đó tìm ra mức độ quan trọng của các đặc trưng nội dung cho người dùng.
- Hệ thống cho lại kết quả tư vấn tốt trên bộ dữ liệu MovieLens gồm 39000 phim và 6040 người dùng.

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

CHỦ ĐỀ LIÊN QUAN