« Home « Kết quả tìm kiếm

Các phương pháp đánh giá hệ thống gợi ý


Tóm tắt Xem thử

- CÁC PHƯƠNG PHÁP ĐÁNH GIÁ HỆ THỐNG GỢI Ý Trần Nguyễn Minh Thư và Phạm Xuân Hiền.
- Hệ thống gợi ý, phương thức, đánh giá, đánh giá offline, đánh giá on-line.
- Hệ thống gợi ý là một công cụ hỗ trợ quyết định nhằm cung cấp cho người dùng những lựa chọn hữu ích nhất trong thời đại bùng nổ thông tin.
- Khi xây dựng một hệ thống gợi ý, người ta thường quan tâm đến tính hiệu quả của nó..
- Tuy nhiên, việc đánh giá tính hiệu quả của một hệ thống gợi ý còn tuỳ thuộc rất nhiều vào mục đích xây dựng hệ thống, loại dữ liệu và điều kiện để đánh giá hệ thống.
- Điều kiện đánh giá hệ thống có thể là trực tuyến (online) hay dựa vào dữ liệu có sẵn (offline).
- Trong bài báo này, chúng tôi sẽ tập trung phân tích và giới thiệu các phương pháp đánh giá một hệ thống gợi ý theo tiêu chí định tính (tính đa dạng, tính mới, tính bao phủ) cũng như định lượng (precision, recall, F1, MSE, RMSE).
- Các phương pháp đánh giá hệ thống gợi ý..
- Ngày nay, hệ thống gợi ý được nhiều người biết đến như một công cụ hỗ trợ hữu ích để giúp người dùng tìm được nhiều thông tin liên quan và phù hợp trong một cơ sở dữ liệu lớn một cách nhanh chóng.
- Các hệ thống gợi ý được ứng dụng trong nhiều lĩnh vực như thương mại điện tử, giải trí, khoa học, tin tức… Trong lĩnh vực thương mại, người dùng sẽ được hệ thống gợi ý các sản phẩm phù hợp với nhu cầu của từng cá nhân.
- Ví dụ như hệ thống gợi ý bán hàng của Amazon, Ebay,….
- ý các bộ phim, bài hát phù hợp mà người sử dụng không phải mất nhiều công sức tìm kiếm như hệ thống gợi ý phim MovieLens 1 , last.fm 2 , Film- Conseil.
- Trong lĩnh vực khoa học, hệ thống gợi ý hỗ trợ người dùng tìm kiếm các bài báo khoa học như hệ thống tìm kiếm Citeseer 3 hay sinh viên tìm kiếm các tài liệu học tập phù hợp với cá nhân như hệ thống School e-Guide của tác giả M.
- Trong lĩnh vực tin tức, người đọc được hệ thống hỗ.
- Một hệ thống gợi ý không thể được triển khai nếu chưa qua đánh giá.
- Việc đánh giá một hệ thống gợi ý là một giai đoạn cần thiết vì hiệu quả của một hệ thống gợi ý không chỉ phụ thuộc vào đặc điểm dữ liệu mà còn phụ thuộc vào mục đích gợi ý (Herlocker J.L et al, 2004).
- Nghĩa là một hệ thống gợi ý với cùng một giải thuật thì kết quả gợi ý có thể có hiệu quả khác nhau trên những tập dữ liệu khác nhau.
- Liên quan đến mục đích của hệ thống, một vài hệ thống gợi ý chú trọng đến tính đa dạng của các mục dữ liệu trong danh sách gợi ý nhưng một số khác lại chú trọng đến tính mới của các mục dữ liệu.
- Tùy thuộc vào đặc trưng dữ liệu và mục đích của hệ thống gợi ý, các phương pháp đánh giá khác nhau có thể được sử dụng.
- Ngoài ra, nó còn phụ thuộc vào điều kiện để đánh giá hệ thống như dựa vào dữ liệu có sẵn để đánh giá (offline) hay triển khai hệ thống và đánh giá trực tuyến (online)..
- Trong phần hai, chúng tôi sẽ trình bày khái quát về một hệ thống gợi ý.
- Tiếp theo các nghi thức kiểm tra hệ thống, các phương pháp đánh giá một hệ thống gợi ý được trình bày chi tiết trong phần ba và bốn.
- 2 HỆ THỐNG GỢI Ý.
- Hệ thống gợi ý là hệ thống hỗ trợ ra quyết định nhằm gợi ý các thông tin liên quan đến người dùng một cách dễ dàng và nhanh chóng, phù hợp với từng người dùng (Adomavicius, G.
- Ví dụ với trang web Amazon, một trong những trang web thương mại điện tử nổi tiếng nhất, khi người dùng truy cập vào trang web này họ sẽ được gợi ý những sản phẩm tiềm năng nhất từ hàng triệu sản phẩm trong hệ thống.
- Hệ thống gợi ý như một công cụ cung cấp những.
- thông tin hữu ích và riêng biệt theo từng cá nhân trên một hệ thống chứa đựng một lượng lớn thông tin.
- Các hệ thống gợi ý được thiết kế nhằm cung cấp cho người dùng những đề nghị liên quan, những đề nghị hiệu quả nhất có thể từ thông tin của các mục dữ liệu, từ hồ sơ người sử dụng và từ mối liên hệ giữa những đối tượng này..
- Cấu trúc của một hệ thống gợi ý gồm có ba thành phần chính (Adomavicius, G.
- Tuzhilin, 2005): tập hợp các người dùng U = {u 1 ,…,u p } bao gồm các thông tin của người dùng được lưu trên hệ thống.
- Cụ thể một hệ thống gợi ý có thể được miêu tả như trong Hình 1 (Trần Nguyễn Minh Thư, 2011)..
- “Người dùng” được xem như là tác nhân của hệ thống tác động lên các “mục dữ liệu”..
- “Mục dữ liệu” có thể là quần áo, phim ảnh, sách vở, bài báo, bài hát, cd, trang web, rượu… Mối quan hệ giữa người dùng và mục dữ liệu có thể là quan hệ yêu thích, mong muốn, mua, đọc… Sau đó, hệ thống sẽ cung cấp một danh sách các mục dữ liệu đề nghị cho người dùng.
- Mục tiêu cuối cùng của một hệ thống gợi ý là đưa ra một danh sách các mục dữ liệu tiềm năng phù hợp với nhu cầu, mong muốn của người dùng..
- Hình 1: Sơ đồ tổng quát của một hệ thống gợi ý.
- Hệ thống gợi ý thông thường được xây dựng dựa trên 3 bước tuần tự (Sarwar B., et al, 2001;.
- Bước thứ nhất chính là bước trình bày /tổ chức/ chọn lọc lại dữ liệu sẽ sử dụng để xây dựng hệ thống dựa trên dữ liệu có sẵn trong hệ thống (representation).
- Cuối cùng, hệ thống sẽ đưa ra một danh sách các mục dữ liệu đề nghị hoặc giá trị đánh giá dự đoán của mục dữ liệu (ví dụ như giá trị đánh giá dự đoán của một bộ phim hay một quyển sách)..
- Một hệ thống gợi ý được đánh giá bằng cách phân tích trên tập dữ liệu đã tồn tại (off-line evalution), hoặc lấy thông tin trực tiếp từ người sử dụng hệ thống (on-line evalution), hoặc kết hợp cả hai cách trên (Herlocker J.L et al, 2004.
- Đánh giá off-line được thực hiện nhanh chóng, ít tốn kém và có thể thực hiện trên tập dữ liệu lớn thậm chí có khả năng lặp lại các sự tương tác của hệ thống gợi.
- Trong cách đánh giá on-line, người dùng tương tác với hệ thống và nhận được những gợi ý thực sự..
- Hệ thống hỏi và thu nhận các câu trả lời từ đó đưa ra những gợi ý phù hợp thực tế đối với người sử dụng, đo được sự hài lòng của người dùng thực..
- Các nghi thức kiểm tra thông dụng áp dụng trong hệ thống các nghiên cứu với các tập dữ liệu được trình bày trong Bảng 1..
- STT Hệ thống áp dụng Tập dữ liệu Nghi thức đánh giá.
- Việc lựa chọn một nghi thức kiểm tra cho hệ thống gợi ý còn phụ thuộc sâu sắc vào đặc điểm của cơ sở dữ liệu.
- Một biến thể của phương pháp hold-out thường được sử dụng trong lĩnh vực thương mại điện tử của các hệ thống gợi ý chính là phương thức Given-N và AllButOne.
- đánh giá hệ thống gợi ý trong lĩnh vực thương mại điện tử (Hsu, C.
- Sau khi hệ thống gợi ý đề nghị những sản.
- phẩm, ta so sánh chúng với các gợi ý thực tế (sản phẩm nằm trong phần kiểm tra), độ chính xác của hệ thống sẽ tăng lên 1 đơn vị khi sản phẩm gợi ý trùng với sản phẩm trong tập kiểm tra và bằng 0.
- Sau khi hệ thống gợi ý đề nghị những sản phẩm, chúng ta so sánh chúng với gợi ý thực tế (sản phẩm trong tập kiểm tra), độ chính xác của hệ thống sẽ tăng lên 1 đơn vị khi sản phẩm gợi ý trùng với sản phẩm trong tập kiểm tra và bằng 0 khi sản phẩm gợi ý không trùng với sản phẩm trong tập kiểm tra..
- Với sự phát triển không ngừng, bên cạnh các tiêu chí định lượng thì người ta nghiên cứu thêm các tiêu chí đánh giá mới (tiêu chí định tính) nhằm có những đánh giá chính xác hơn để cải thiện hệ thống gợi ý.
- Các tiêu chí định tính được sử dụng để đánh giá chung về chất lượng của hệ thống gợi ý..
- Các giá trị đo lường này bằng 0 khi hệ thống đạt được hiệu quả tốt nhất.
- Giá trị này càng cao thì hiệu quả của hệ thống càng thấp..
- Tại cuộc thi nhằm cải thiện độ chính xác của hệ thống gợi ý do Netflix 4 tổ chức, các hệ thống gợi ý đã được đánh giá bởi chỉ số RMSE.
- Các chỉ số MAE, MSE và RMSE đã được sử dụng để đánh giá hệ thống gợi ý mà kết quả là giá trị dự đoán các đánh giá như hệ thống MovieLens, BookCrossing..
- Recall được sử dụng để đo khả năng hệ thống tìm được những mục dữ liệu phù hợp so với những gì mà người dùng cần..
- Ví dụ như số lượng gợi ý mà hệ thống tạo ra là 10, số lượng gợi ý phù hợp là 3, số lượng sản phẩm mua bởi người dùng là 3 thì độ chính xác thấp (30.
- tuy nhiên giá trị recall lại cao (100%) nghĩa là độ chính xác thấp nhưng người dùng lại hài lòng bởi vì họ mua có 3 sản phẩm và hệ thống gợi ý đúng cả 3 sản phẩm đó..
- Trong tình huống đó, chỉ số F-score được sử dụng để đánh giá hiệu quả tổng thể của hệ thống bằng.
- R score đánh giá vị trí của sản phẩm được chọn bởi người dùng trong danh sách sản phẩm gợi ý được tạo ra bởi hệ thống.
- Ví dụ, một hệ thống gợi ý cho người dùng 10 sản phẩm sắp xếp theo thứ tự ưu tiên từ cao đến thấp.
- Nếu người dùng chọn sản phẩm đầu tiên trong danh sách thì hệ thống gợi ý hiệu quả hơn khi người dùng chọn sản phẩm có thứ tự thứ 10.
- thường được sử dụng đối với các hệ thống gợi ý trong lĩnh vực thương mại điện tử.
- Các chỉ số đánh giá, công thức tương ứng và một số hệ thống gợi ý/.
- STT Chỉ số Công thức Hệ thống đã áp dụng.
- Trong những giai đoạn đầu phát triển thì hệ thống gợi ý chỉ sử dụng các độ đo chính xác định lượng như đã đề cập.
- Nếu chỉ xét độ chính xác thì không đủ để đánh giá hiệu quả của một hệ thống gợi ý nên cần đưa thêm thuộc tính chất lượng các gợi ý thay vì chỉ sử dụng độ chính xác của các gợi ý.
- có thể có nhiều ý nghĩa khi đề cập đến hệ thống gợi ý (Herlocker J.L et al, 2004;.
- Điều này xảy ra như một trường hợp đặc biệt mà mục dữ liệu trong hệ thống chưa có thông tin liên quan đến người sử dụng, như thể hiện “sản phẩm mới” trong Hình 3.
- Vấn đề này cũng được xác định như là một trong những khó khăn của hệ thống gợi ý – vấn đề “thiếu thông tin”.
- Hình 3: Sự phổ biến của sản phẩm Một số hệ thống cung cấp rất chính xác gợi ý nhưng không hữu dụng trong thực tế vì không quan.
- tâm đến các tiêu chí định tính trong quá trình xây dựng hệ thống.
- Ví dụ như hệ thống gợi ý “sữa tươi” cho khách hàng trong một siêu thị ở châu Âu..
- Thuộc tính mới được nhấn mạnh như là một chỉ số cần thiết để đánh giá tính hiệu quả của hệ thống gợi ý.
- Shani và ctv cùng với những nghiên cứu của mình đã chỉ ra 3 điểm quan trọng liên quan đến hiệu quả của hệ thống gợi ý.
- 4.2.2 Tính đa dạng (Diversity) của các gợi ý Sự đa dạng của hệ thống gợi ý đo lường khả năng cung cấp một danh sách các mục dữ liệu được phân phối từ nhiều loại khác nhau.
- sự đa dạng tổng thể của hệ thống giới thiệu là lớn, thì sự đa dạng của các gợi ý cá nhân cũng là rất lớn, nhưng điều này không đúng cho chiều ngược lại.
- Ví dụ, hệ thống cung cấp 3 gợi ý khác nhau cho tất cả người dùng, thì sự đa dạng cá nhân là tương đối cao nhưng sự đa dạng tổng thể là rất thấp (Adomavicius, G.
- Trong các hệ thống gợi ý truyền thống, sự đa dạng của các gợi ý chưa được quan tâm đến mặc dù chỉ số này rất quan trọng.
- Ví dụ như sự đang dạng của các điểm tham quan cho các kỳ nghỉ lễ trong hệ thống gợi ý các địa điểm du lịch.
- Với thực tế đó, đã có nhiều nghiên cứu cải thiện hiệu quả của hệ thống gợi ý hướng đến sự đa dạng và các nghiên cứu này cũng đã khẳng định.
- “Nếu chỉ tính đến độ chính xác của các gợi ý để đánh giá chất lượng của một hệ thống là không đủ để đảm bảo sự phù hợp, hiệu quả của những gợi ý cho người dùng” G.
- Hai yếu tố có tác động trực tiếp đến sự đa dạng của gợi ý là các thuật toán sử dụng để xây dựng hệ thống và các đặc tính của cơ sở dữ liệu.
- Điều đó chứng tỏ rằng sự đa dạng của các gợi ý sẽ tập trung vào các mục dữ liệu nằm thuộc phần đuôi dài, tuy nhiên cần phải có một tỉ lệ hợp lý để không làm giảm quá nhiều độ chính xác của hệ thống..
- Các giải thuật này chứng tỏ được tính hiệu quả ở sự đa dạng nhưng không làm giảm đáng kể độ chính xác của hệ thống.
- Kwon, 2010) đánh giá trên cơ sở dữ liệu MovieLens, thì hệ thống tăng thêm 20% tính đa dạng nhưng chỉ làm mất đi 1% độ chính xác.
- 4.2.3 Độ bao phủ (coverage) của các gợi ý Độ bao phủ của hệ thống gợi ý là thước đo số lượng lĩnh vực mà danh sách các sản phẩm gợi ý được tạo ra thuộc về chúng, số lĩnh vực này có bao trùm được hệ thống hay không (Herlocker J.L et al, 2004, Takács G., et al, 2007).
- Độ bao phủ của các gợi ý thấp thì thường ít được đánh giá cao bởi người dùng bị giới hạn thông tin về các lĩnh vực của hệ thống và họ cần được tư vấn đa lĩnh vực.
- Độ bao phủ đã được sử dụng trong đánh giá hệ thống gợi ý bởi một số nhà nghiên cứu như Good et al..
- Giống như chỉ số precision và recall phải được xem xét đồng thời, độ bao phủ (Coverage) thường được kết hợp với chỉ số “accuracy”, vì không thể tăng giá độ bao phủ mà không quan tâm đến việc tạo ra những gợi ý không thuộc hệ thống.
- “ngầm hiểu” (Implicit): phương pháp đánh giá một cách rõ ràng nghĩa là hệ thống đo độ hài lòng của người sử dụng bằng cách yêu cầu trực tiếp.
- Kết quả so với quá trình: việc đánh giá có thể chỉ tập trung vào kết quả, nhưng nó cũng có thể tập trung vào quá trình áp dụng hệ thống gợi ý..
- Các nghiên cứu điều tra sự hài lòng của người dùng đối với hệ thống gợi ý là rất hiếm và nghiên cứu tập trung trên sự hài lòng của các gợi ý thì càng hiếm hơn.
- Bài báo đưa ra cái nhìn tổng quan về hệ thống gợi ý cũng như phân tích chi tiết các vấn đề liên quan đến việc đánh giá một hệ thống gợi ý.
- Các phương pháp đánh giá cũng được hệ thống theo định lượng dựa trên các công thức MSE, RMSE, MAE, Precision, Recall, F- score và theo định tính dựa trên tính mới, tính đa dạng của các gợi ý.
- Từ đó giúp việc chọn lựa các phương pháp đánh giá để triển khai hệ thống được phù hợp và hiệu quả đối với từng dữ liệu cụ thể.
- Tóm lại, để xây dựng hệ thống gợi ý chính xác và hữu dụng, chúng ta cần quan tâm đến cách thức đánh giá hệ thống cũng như các chỉ số đánh giá phù hợp..
- Tuy nhiên, bài báo này chỉ tổng hợp kết quả nghiên cứu các phương pháp đánh giá hệ thống gợi.
- Bên cạnh đó, chúng tôi cũng chỉ quan tâm đến các chỉ số đánh giá tính hiệu quả của hệ thống mang lại mà chưa quan tâm đến tiêu chí về thời gian xây dựng hay thời gian đáp ứng của hệ thống