« Home « Kết quả tìm kiếm

Lựa chọn mô hình và tham số cho bài toán tư vấn lọc cộng tác dựa trên đồ thị đánh giá


Tóm tắt Xem thử

- DOI:10.22144/ctu.jsi.2017.023 LỰA CHỌN MÔ HÌNH VÀ THAM SỐ CHO BÀI TOÁN TƯ VẤN LỌC CỘNG TÁC DỰA TRÊN ĐỒ THỊ ĐÁNH GIÁ.
- Giải thuật máy học, hệ tư vấn, kỹ thuật thống kê, mô hình tư vấn lọc cộng tác.
- Trong nghiên cứu này, chúng tôi đề xuất giải pháp lựa chọn mô hình và các giá trị tham số phù hợp cho bài toán tư vấn lọc cộng tác cụ thể.
- Kết quả thực nghiệm cho thấy các giải pháp của chúng tôi đề xuất có thể hỗ trợ nhà thiết kế, nhà nghiên cứu xác định được mô hình cũng như các giá trị tham số của mô hình cho bài toán tư vấn cụ thể của họ một cách nhanh chóng..
- Lựa chọn mô hình và tham số cho bài toán tư vấn lọc cộng tác dựa trên đồ thị đánh giá.
- Để dự đoán được các sản phẩm mà người thích dựa trên ma trận xếp hạng, nhiều mô hình lọc cộng tác được đề xuất như mô hình lọc cộng tác dựa trên người dùng (User-based collaborative filtering) (Martin et al., 2014.
- Nghia et al., 2016), mô hình lọc cộng tác dựa trên sản phẩm (Item-based collaborative filtering) (Martin et al., 2014.
- Michael et al., 2010), mô hình lọc cộng tác dựa trên luật kết hợp (Collaborative filtering based on association rules) (Ahmed, 2015.
- Nghia et al., 2015) và nhiều mô hình khác.
- Bên cạnh đó, dựa trên loại dữ liệu xếp hạng của người dùng của từng bài toán tư vấn, các mô hình lọc cộng tác tiếp tục được phát triển sâu hơn để xử lý cho từng loại dữ liệu như mô hình lọc cộng tác dựa trên người dùng cho ma trận xếp hạng dạng số thực (realRatingMatrix), mô hình lọc cộng tác dựa trên người dùng cho ma trận xếp hạng dạng nhị phân (binaryRatingMatrix) (Michael Hahsler, 2015)..
- Chính vì sự đa dạng của các mô hình lọc cộng tác và sự tương thích dữ liệu đầu vào của từng mô hình đã gây sự khó khăn cho việc phát triển các hệ tư vấn.
- Thứ nhất là làm thế nào để chọn được mô hình tư vấn lọc cộng tác phù hợp cho bài toán tư vấn cụ thể.
- Thứ hai là làm thế nào để chọn được các tham số phù hợp cho mô hình tư vấn lọc cộng tác đã chọn.
- 2 MÔ HÌNH TƯ VẤN LỌC CỘNG TÁC Mô hình tư vấn lọc cộng tác sử dụng dữ liệu xếp hạng của người dùng cho các sản phẩm để dự đoán các giá trị xếp hạng cho các sản phẩm mà người dùng chưa xếp hạng hoặc tạo ra danh sách các sản phẩm cần tư vấn cho người dùng (Martin et al., 2014.
- Mô hình được mô tả như sau.
- Mục tiêu của mô hình lọc cộng tác là tìm cách dự đoán các giá trị còn rỗng của ma trận từ các giá trị xếp hạng đã có.
- 2.1 Mô hình tư vấn lọc cộng tác dựa trên người dùng.
- Mô hình lọc cộng tác dựa trên người dùng (UBCF) là mô hình lọc cộng tác thuộc nhóm giải pháp tư vấn dựa trên bộ nhớ (memory-based approach) (Martin et al., 2014.
- Mô hình này tìm ra kết quả tư vấn theo quy tắc truyền miệng (word of mouth) dựa trên ma trận xếp hạng của người dùng..
- 2.2 Mô hình tư vấn lọc cộng tác dựa trên sản phẩm.
- Mô hình lọc cộng tác dựa trên sản phẩm (IBCF) là mô hình lọc cộng tác thuộc nhóm giải pháp tư vấn dựa trên mô hình (Model-based approach) (Martin et al., 2014.
- Mô hình này tìm ra các sản phẩm cần tư vấn dựa trên mối quan hệ giữa các sản phẩm được suy ra từ ma trận xếp hạng của người dùng..
- Giả thuyết của mô hình là người dùng sẽ thích các sản phẩm có sự tương đồng với các sản phẩm khác mà họ đã mua hoặc xếp hạng cao trong quá khứ..
- Sau đó, mô hình dựa trên ma trận tương đồng này để tính tổng trọng số các giá trị xếp hạng của người dùng cho các sản phẩm liên quan.
- Từ đó, mô hình sẽ dự đoán ra sản phẩm nào mà người dùng xếp hạng cao nhất..
- 2.3 Mô hình lọc cộng tác dựa trên luật kết hợp.
- Mô hình lọc cộng tác dựa trên luật kết hợp (AR) là mô hình tư vấn sử dụng luật kết hợp để.
- Mô hình chỉ áp dụng trên dữ liệu xếp hạng dạng nhị phân.
- Dựa trên tập luật kết hợp đã chọn, mô hình tìm ra các sản phẩm cần tư vấn cho người dùng gồm hai bước sau:.
- 2.4 Các mô hình lọc cộng tác khác.
- Manolis and Konstantinos, 2008), mô hình dựa trên sản phẩm phổ biến (Recommender based on item popularity) (Harald Steek, 2011.
- Michael Hahsler, 2015), mô hình sinh kết quả tư vấn ngẫu nhiên (Produce random recommendations) (Michael Hahsler, 2015), mô hình dựa trên phương pháp triển khai phân tích ma trận SVD (Singular Value Decomposition) (Nghe and Hiep, 2012;.
- 3 ĐÁNH GIÁ MÔ HÌNH LỌC CỘNG TÁC Đánh giá mô hình tư vấn lọc cộng tác được dựa trên giả thuyết nếu mô hình chạy tốt trên dữ liệu kiểm tra (các sản phẩm được người dùng xếp hạng) thì nó sẽ cho kết quả dự đoán tốt cho dữ liệu mới (các sản phẩm chưa được người dùng xếp hạng) (Isinkaye et al., 2015.
- Trong đó, ma trận xếp hạng của người dùng được chia làm hai phần dựa trên dòng (users): phần được dùng để mô hình học gọi là tập huấn luyện và phần được dùng để kiểm tra kết quả dự đoán của mô.
- Để đánh giá độ chính xác của mô hình tư vấn lọc cộng tác, người ta sử dụng một trong hai phương pháp sau: đánh giá dựa trên giá trị xếp hạng dự đoán và đánh giá dựa trên kết quả dự đoán..
- Trong bài viết này, chúng tôi sử dụng phương pháp đánh giá dựa trên kết quả dự đoán của mô hình.
- Phương pháp này đánh giá độ chính xác của mô hình bằng cách so sánh các sản phẩm của mô hình đưa ra với các sản phẩm được người dùng xếp hạng cao.
- Độ chính xác của mô hình được xác định thông qua các chỉ số: độ chính xác (Precision), độ bao phủ (Recall) và trung bình điều hòa giữa độ chính xác và độ bao phủ (F-measure) (Michael Hahsler, 2011.
- Mô hình được đánh giá là tốt khi các chỉ số trên có giá trị cao..
- người dùng Kết quả của mô hình Giới thiệu Không giới thiệu.
- TP: Những sản phẩm được mô hình giới thiệu đã được người dùng xếp hạng cao..
- FP: Những sản phẩm được mô hình giới thiệu đã được người dùng xếp hạng thấp..
- FN: Những sản phẩm không được mô hình giới thiệu đã được người dùng xếp hạng cao..
- TN: Những sản phẩm không được mô hình khuyến nghị đã được người dùng xếp hạng thấp..
- 4 LỰA CHỌN MÔ HÌNH DỰA TRÊN ĐỒ THỊ ĐÁNH GIÁ.
- Để xác định được mô hình phù hợp cho bài toán tư vấn lọc cộng tác người thiết kế hệ thống thường phải mất nhiều thời gian cho việc lựa chọn mô hình.
- Do mỗi mô hình chỉ phù hợp với một số.
- Để giúp người thiết kế hệ thống chọn được mô hình nhanh hơn, chúng tôi đề xuất giải thuật lựa chọn mô hình tư vấn lọc cộng tác dựa trên đồ thị đánh giá như sau:.
- Giải thuật: Chọn mô hình lọc cộng tác.
- Danh sách các mô hình;.
- <Danh sách mô hình>= <các mô hình lọc cộng tác cần kiểm tra>;.
- tiếp theo, người thiết kế hệ thống chọn danh sách các mô hình lọc cộng tác cần thử nghiệm trên dữ liệu của bài toán.
- tiếp đến, thực hiện đánh giá đồng thời các mô hình và vẽ đồ thị đánh giá để so sánh độ chính xác của các mô hình..
- Bước này giúp người thiết kế hệ thống rút ngắn thời gian chọn mô hình.
- cuối cùng, đọc kết quả từ đồ thị đánh giá để xác định mô hình hiệu quả nhất cho bài toán tư vấn..
- Làm thế nào để xác định được giá trị phù hợp cho các tham số khi thực thi các mô hình tư vấn lọc cộng tác là một khâu quan trọng trong quá trình thiết kế hệ tư vấn.
- Ví dụ, để áp dụng mô hình lọc cộng tác dựa trên người dùng trên tập dữ liệu MovieLens ta nên chọn độ đo tương đồng nào thì mô hình sẽ cho kết quả chính xác cao hoặc mô hình sẽ cho kết quả cao nhất với bao nhiêu người dùng tương đồng.
- Từ mô hình tư vấn lọc cộng tác đã chọn, chúng tôi đề xuất giải thuật xác định giá trị phù hợp cho các tham số của mô hình lọc cộng tác dựa trên đồ thị đánh giá như sau:.
- Giải thuật: Chọn giá trị tham số cho mô hình lọc cộng tác.
- Input: Ma trận dữ liệu xếp hạng, mô hình tư vấn và danh sách giá trị của tham số;.
- Trong giải thuật này, đầu tiên, dữ liệu đánh giá được xử lý tương tự như trong giải thuật chọn mô hình tư vấn.
- tiếp đến, thực hiện đánh giá mô hình trên tất cả giá trị của tham số và vẽ đồ thị đánh giá để so sánh độ chính xác của mô hình trên từng giá trị của tham số.
- Bước này giúp người thiết kế hệ thống rút ngắn thời gian chọn giá trị tham số tốt nhất cho mô hình.
- cuối cùng, đọc kết quả từ đồ thị đánh giá để xác định giá trị tham số tốt nhất cho mô hình..
- Kỹ thuật này đảm bảo mỗi người dùng ít nhất một lần xuất hiện trong tập kiểm tra tương ứng với k lần đánh giá mô hình.
- Kết quả đánh giá các mô hình là kết quả trung bình của k lần đánh giá..
- Trong đó, chúng tôi tích hợp các mô hình tư vấn lọc cộng tác từ gói công cụ recommenderlab (Michael Hahsler và cài đặt thêm các chức năng: xử lý dữ liệu;.
- tích hợp các mô hình lọc cộng tác cần đánh giá;.
- tích hợp các giá trị tham số cần đánh giá vào mô hình lọc cộng tác.
- đánh giá các mô hình tích hợp và xây dựng đồ thị đánh giá..
- 6.4 Lựa chọn mô hình và tham số trên tập dữ liệu MovieLenese.
- Để chọn được mô hình tư vấn lọc cộng tác nào cho kết quả tốt nhất trên tập dữ liệu MovieLens, chúng tôi xây dựng danh sách các mô hình cần đánh giá gồm: mô hình lọc cộng tác dựa trên sản phẩm (IBCF), mô hình lọc cộng tác dựa trên người dùng (UBCF), mô hình dựa phương pháp phân tích giúp giảm số chiều của dữ liệu (PCA), mô hình dựa trên phương pháp triển khai phân tích ma trận (SVD), mô hình dựa trên sản phẩm phổ biến (POPULAR), mô hình sinh kết quả tư vấn ngẫu nhiên (RANDOM).
- Sau đó, tiến hành đánh giá các mô hình (với mỗi người dùng được giới thiệu từ 1 đến 40) và xây dựng đồ thị đánh giá để so sánh độ chính xác của các mô hình cần khảo sát.
- Hình 1 cho thấy mô hình UBCF cho kết quả cao nhất trên tập MovieLens so với 5 mô hình còn lại..
- Hình 1: Biểu đồ so sánh độ chính xác các mô hình trên tập dữ liệu MovieLens.
- Dựa trên kết quả chọn mô hình, chúng tôi chọn mô hình UBCF để tiến hành thực nghiệm phần lựa chọn các giá trị tham số cho mô hình.
- Đối với tham số method, mô hình được đánh giá trên các độ đo tương đồng sau: vector_method.
- Từ kết quả so sánh trình bày trong Hình 2 cho thấy mô hình tư UBCF có độ chính xác cao nhất khi sử dụng độ đo tương đồng "jaccard".
- Hình 2: Biểu đồ so sánh độ chính xác của mô hình UBCF theo các độ đo tương đồng.
- Hình 3: Biểu đồ so sánh độ chính xác của mô hình UBCF theo số người dùng tương đồng.
- Đối với tham số nn, mô hình được đánh giá trên các giá trị sau: vector_nn = c .
- Hình 3 cho thấy mô hình UBCF có độ chính xác cao nhất khi tham số nn = 40 (số người dùng tương đồng cho mỗi người cần tư vấn) trên tập dữ liệu MovieLens..
- 6.5 Lựa chọn mô hình và tham số trên tập dữ liệu MSWeb.
- Tương tự phần thực nghiệm trên tập dữ liệu MovieLens, chúng tôi chọn các mô hình để đánh giá trên tập dữ liệu MSWeb gồm: IBCF, UBCF, AR, POPULAR, RANDOM.
- Sau đó, tiến hành đánh giá các mô hình và xây dựng đồ thị đánh giá tương tự như phần thực nghiệm trên tập dữ liệu MovieLens.
- Từ kết quả so sánh trong Hình 4 cho thấy mô hình UBCF có độ chính xác cao nhất trong các mô hình được đánh giá khi số lượng trang web giới thiệu cho người dùng nhỏ hơn hoặc bằng 20..
- Tuy nhiên, khi tăng số lượng trang web giới thiệu cho người dùng lớn hơn 20 thì mô hình IBCF có độ chính xác cao nhất trong các mô hình được đánh giá.
- Hình 4: Biểu đồ so sánh độ chính xác các mô hình trên tập dữ liệu MSWeb.
- Hình 5: Biểu đồ so sánh độ chính xác của mô hình IBCF theo số sản phẩm tương đồng Trong phần thực nghiệm chọn giá trị tham số trên tập dữ liệu MSWeb, chúng tôi chọn mô hình IBCF để tiến hành thực nghiệm phần lựa chọn giá trị cho tham số dùng để xác định số lượng sản phẩm tương đồng cho mỗi người dùng cần tư vấn.
- Mô hình được đánh giá với tham số k gồm các giá trị sau: vector_k = c .
- Hình 5 cho thấy mô hình IBCF có độ chính xác cao nhất khi tham số k = 60 (số sản phẩm tương đồng cho mỗi người cần tư vấn) trên tập dữ liệu MSWeb..
- 6.6 Lựa chọn mô hình và tham số trên tập dữ liệu Jester5k.
- Kết quả đánh giá các mô hình được trình bày trong Hình 6.
- Kết quả này cho thấy mô hình UBCF cho kết quả cao nhất trên tập dữ liệu Jester5k so với 5 mô hình còn lại..
- Hình 6: Biểu đồ so sánh độ chính xác các mô hình trên tập dữ liệu Jester5k.
- Từ kết quả chọn mô hình, chúng tôi chọn mô hình UBCF để tiến hành thực nghiệm phần lựa chọn các giá trị tham số cho mô hình.
- Từ kết quả so sánh trình bày trong Hình 7 cho thấy mô hình UBCF có độ chính xác cao nhất khi sử dụng độ đo tương đồng "jaccard".
- Hình 7: Biểu đồ so sánh độ chính xác của mô hình UBCF theo các độ đo tương đồng.
- Trong nghiên cứu này, chúng tôi đề xuất các giải pháp lựa chọn mô hình và các giá trị tham số phù hợp cho bài toán tư vấn lọc cộng tác cụ thể..
- Mô hình tư vấn lọc cộng tác tích hợp dựa trên tương đồng sản phẩm, Tạp chí Khoa học và Công nghệ - Đại học Đà Nẵng