« Home « Kết quả tìm kiếm

HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG


Tóm tắt Xem thử

- HỆ THỐNG TƯ VẤN WEBSITE CHO MÁY TÌM KIẾM DỰA TRÊN KHAI PHÁ QUERY LOG.
- Hiện nay, sự quan tâm đối với hệ tư vấn đang rất cao vì sự cần thiết của những ứng dụng có thể giúp người dùng xử lý với tình trạng quá tải thông tin &.
- Khóa luận đề xuất phương pháp xây dựng một hệ thống tư vấn website dựa trên việc khai phá query logs của máy tìm kiếm.
- Các website được tư vấn là kết quả có được dựa trên phân tích những lựa chọn của hàng nghìn người dùng trước đó.
- Tổng quan về hệ tư vấn.
- Giới thiệu về hệ tư vấn.
- Bài toán tư vấn.
- Phân loại hệ tư vấn.
- Phương pháp dựa trên nội dung.
- Sơ bộ về hệ tư vấn trong khóa luận.
- Đánh giá của người dùng về một số bộ phim đã xem.
- Ba phương pháp tư vấn.
- Tư vấn dựa trên nội dung.
- Tư vấn dựa trên cộng tác.
- Sơ đồ hệ thống tư vấn website.
- Trong thời đại bùng nổ thông tin, khi người dùng thường bị ngập trong khối lượng thông tin khổng lồ thì hệ tư vấn ngày càng có vai trò quan trọng.
- Khi cần tìm thông tin về một sản phẩm nào đó, giải pháp được hầu hết người dùng sử dụng là đưa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum chuyên ngành.
- Cần có một phương pháp có thể đưa ra gợi ý, tư vấn cho người dùng đủ tốt để áp dụng cho những chủ đề rất đa dạng của cuộc sống..
- Những website này đã qua hai lần ―lọc‖, một của máy tìm kiếm và một của người dùng (không phải ngẫu nhiên mà nhiều người dùng lại có cùng một lựa chọn).
- Vì lí do đó, khóa luận đề xuất việc xây dựng một hệ thống tư vấn website cho máy tìm kiếm dựa trên khai phá query log.
- [1] tập trung vào việc thống kê website và khai phá mẫu có thứ tự (tìm ra quy luật giữa từ khóa trong query và url được click) để đưa ra tư vấn.
- Bước ba: khi người dùng đưa vào một query mới, query này sẽ được phân cụm..
- Tổng quan về hệ tư vấn 1.1.
- Hệ thống này đưa ra gợi ý dựa trên những gì người dùng đã làm trong quá khứ, hoặc dựa trên tổng hợp ý kiến của những người dùng khác.
- Một vài hệ tư vấn nổi tiếng [8].
- chưa được người dùng xem xét.
- Việc ước lượng này thường dựa trên những đánh giá đã có của chính người dùng đó hoặc những người dùng khác.
- Gọi C là tập tất cả người dùng.
- S là tập tất cả các sản phẩm có thể tư vấn.
- Với mỗi người dùng 𝑐 ∈ 𝐶, cần tìm sản phẩm 𝑠.
- Trong hệ tư vấn, độ phù hợp của một sản phẩm thường được cho bằng điểm, ví dụ người dùng A đánh giá bộ phim ―Star war 3‖ được điểm 7/10.
- Giá trị của hàm u có thể được xác định bởi người dùng hoặc được tính toán bởi công thức nào đó..
- Mỗi người dùng trong không gian C được xác định bởi một hồ sơ (profile).
- hoặc có thể chỉ gồm một trường mã số người dùng (user id) duy nhất.
- Thông thường, độ phù hợp được thể hiện bằng điểm và chỉ xác định trên tập các sản phẩm đã từng được người dùng đánh giá từ trước (thường khá nhỏ).
- Ví dụ, bảng 1 là đánh giá của một số người dùng với các phim mà họ đã xem (thang điểm từ 0-10, kí hiệu ∅ nghĩa là bộ phim chưa được người dùng cho điểm).
- Từ những thông tin đó, hệ thống tư vấn phải dự đoán (ngoại suy) điểm cho các bộ phim chưa được người dùng đánh giá, từ đó đưa ra những gợi ý phù hợp nhất..
- o Dựa trên nội dung (content-based): người dùng được gợi ý những sản phẩm tương tự như các sản phẩm từng được họ đánh giá cao..
- o Cộng tác (collaborative): người dùng được gợi ý những sản phẩm mà những người cùng sở thích với họ đánh giá cao..
- Theo [4], với phương pháp tư vấn dựa trên nội dung, độ phù hợp 𝑢(𝑐, 𝑠) của sản phẩm s với người dùng c được đánh giá dựa trên độ phù hợp 𝑢(𝑐, 𝑠 𝑖.
- Ví dụ, để gợi ý một bộ phim cho người dùng c , hệ thống tư vấn sẽ tìm các đặc điểm của những bộ phim từng được c đánh giá cao (như diễn viên, đạo diễn.
- Do đó, rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào tư vấn các đối tượng chứa dữ liệu text như văn bản, tin tức, website… Những tiến bộ so với hướng tiếp cận cũ của IR là do việc sử dụng hồ sơ về người dùng (chứa thông tin về sở thích, nhu cầu.
- Hồ sơ này được xây dựng dựa trên những thông tin được người dùng cung.
- Tư vấn dựa trên nội dung [17].
- Đặt Profile(c) là hồ sơ về người dùng c , bao gồm các thông tin về sở thích của c .
- w kc ) với x ic biểu thị độ quan trọng của từ khóa i với người dùng c.
- Trong hệ thống tư vấn dựa trên nội dung, độ phù hợp u(c,s) được xác định bởi công thức:.
- Ví dụ, dựa trên tập các trang web đã được người dùng đánh giá là có nội dung ―tốt‖ hoặc ―xấu‖ có thể sử dụng phân lớp Bayes để phân loại các trang web chưa được đánh giá..
- Theo [4], không giống như phương pháp tư vấn dựa trên nội dung, hệ thống cộng tác dự đoán độ phù hợp u(c,s) của một sản phẩm s với người dùng c dựa trên độ phù hợp u(c j , s) giữa người dùng c j và s , trong đó c j là người có cùng sở thích với c .
- Tư vấn dựa trên cộng tác [17].
- Các thuật toán dựa trên kinh nghiệm dự đoán hạng của một sản phẩm dựa trên toàn bộ các sản phẩm đã được đánh giá trước đó bởi người dùng.
- độ tương đồng (về sở thích) giữa người dùng c và c’.
- 𝑟 𝑐 , 𝑟 = trung bình của các đánh giá được cho bởi người dùng 𝑐′ c và c’.
- là tập các sản phẩm được đánh giá bởi cả hai người dùng x, y.
- Với phương pháp dựa trên cosin, hai người dùng được biểu diễn bởi 2 vector m chiều, với m = |S xy.
- Hệ thống cộng tác dựa trên mô hình.
- Hệ thống tư vấn cộng tác khắc phục được nhiều nhược điểm của hệ thống dựa trên nội dung.
- để gợi ý nhà hàng thích hợp cho người dùng.
- Ví dụ, hệ thống Quickstep và Foxtrot sử dụng ontology về chủ đề của các bài báo khoa học để gợi ý những bài báo phù hợp cho người dùng..
- Ba phương pháp tư vấn [4].
- Nhưng thay vì đứng như một ứng dụng riêng rẽ, hệ thống sẽ được tích hợp ngay vào máy tìm kiếm để trực tiếp đưa ra những tư vấn phù hợp với nội dung query của người dùng..
- Phương pháp được sử dụng để đưa ra tư vấn cho một query là dựa vào các lựa chọn của những người dùng đã từng tìm về chủ đề đó.
- Vì thế, có thể xếp hệ thống vào nhóm các hệ tư vấn cộng tác (collaborative)..
- Với hầu hết các hệ tư vấn cộng tác thường thấy, từng người dùng cụ thể được xác định rõ ràng (qua hồ sơ cá nhân) và các sản phẩm thường được người dùng đánh giá.
- Do đó, không thể phân biệt được người dùng với nhau mà chỉ có thể ―cố gắng‖ phân biệt các phiên sử dụng (session) của họ bằng cách phân tích log của máy tìm kiếm (dựa vào các thông tin về IP, trình duyêt, thời gian.
- Hai query tương đồng có vai trò như hai người dùng cùng sở thích.
- Query log bao gồm thông tin về những lượt tìm kiếm của người dùng được máy tìm kiếm lưu lại.
- Khác với server log thông thường, query log có thêm thông tin về nội dung query và các website được người dùng click.
- Truy vấn mà người dùng gửi tới máy tìm kiếm.
- Địa chỉ url người dùng click và vị trí của nó (trường ItemRank của AOL query log) trong danh sách kết quả máy tìm kiếm trả về cho query vừa được gửi.Ví dụ, với query “champion league”, các url được click là: www.uefa.com (ở vị trí 1) và soccernet.espn.go.com (ở vị trí 4, theo kết quả của Google)..
- Khi công bố query log ra công chúng, các máy tìm kiếm buộc phải ―nặc danh hóa‖ (anonymizing) trường này để không làm lộ danh tính và các thông tin cá nhân của người dùng.
- Phần mềm sử dụng ở máy của người dùng (user agents):.
- Trường này lưu thông tin về tên, phiên bản của trình duyệt cũng như tên, phiên bản của hệ điều hành được người dùng sử dụng.Ví dụ: ―Firefox/2.0.0.4;Windows NT 5.1”..
- Thời gian người dùng gửi query tới máy tìm kiếm.
- Được máy tìm kiếm lưu ở máy người dùng để nhận biết một số thông tin về họ..
- Ví dụ, trường cookie của Google lưu sở thích của người dùng về ngôn ngữ tìm kiếm và số kết quả mong muốn trong mỗi trang..
- để phân tích thói quen sử dụng, xu hướng, sở thích… của người dùng.
- Những từ được search nhiều nhất: thể hiện sự quan tâm và xu hướng của người dùng trong tìm kiếm thông tin trên internet.
- Độ dài mỗi phiên: thống kê số lượng query trong mỗi phiên tìm kiếm (session) của người dùng.
- Nó có thể phục vụ tốt cho mục đích tư vấn, quảng cáo, tạo ra những thông tin mang tính động đối với người dùng..
- Phương pháp tìm luật kết hợp được áp dụng trong [1] để dự đoán quy luật tìm kiếm của người dùng.
- Hang Cui và cộng sự trong [16] đã đưa ra một phương pháp mới dựa trên các thông tin tương tác của người dùng được lưu lại trong query log.
- Khi hiểu được mục đích mà query hướng tới, máy tìm kiếm có thể đưa người dùng đến thẳng trang web phù hợp dù có thể nó không chứa các từ khóa có trong query.
- Tư vấn website:.
- Xác định tập url tư vấn.
- Xếp hạng lại tập url tư vấn.
- o Top-N url có hạng cao nhất được sử dụng để tư vấn cho người dùng.
- với một query mới mà người dùng gửi đến máy tìm kiếm thì sẽ không thể làm giàu thông tin được cho nó (vì không biết người dùng sẽ click vào url nào) và dẫn đến việc phân cụm sai..
- Các query này được đưa vào hệ thống với vai trò query mới của người dùng..
- Độ chính xác của hệ thống được tính bằng tỉ lệ url tư vấn trùng với url mong muốn của người dùng..
- Url được hệ thống tư vấn (3 url/query).
- tvguide.com.
- tv.com.
- cellpages.com.
- newyorkcellphone.com.
- tvguidemagazine.com.
- portableplayerz.com.
- anythingbutipod.com.
- tomshardware.com.
- Xây dựng mô hình hệ tư vấn website mới dựa trên khai phá kinh nghiệm của người dùng