« Home « Kết quả tìm kiếm

TỰ ĐỘNG ĐÁNH GIÁ QUAN ĐIỂM NGƯỜI DÙNG


Tóm tắt Xem thử

- Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm.
- Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi.
- 3Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm.
- 42.1.1 Xác định từ, cụm từ quan điểm.
- 42.1.2 Xác định chiều hướng từ, cụm từ quan điểm.
- 72.1.3 Phân lớp câu / tài liệu chỉ quan điểm.
- 102.2.2 Thuật ngữ chỉ quan điểm.
- 112.2.4 Cấp độ quan điểm.
- 132.2.6 Quan điểm theo ngữ cảnh.
- 30Chương 4 Hệ thống đánh giá quan điểm người dùng.
- 344.3 Xây dựng hệ thống đánh giá quan điểm.
- 36Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE.
- Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán tự động đánh giá quan điểm người dùng, những công trình nghiên cứu hiện tại và những thách thức sẽ giải quyết trong tương lai.
- Chương 4: Chúng tôi mô tả chi tiết hệ thống tự động đánh giá quan điểm người dùng trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE.
- bài toán đánh giá quan điểm.
- nhiều nghiên cứu hiện đang chú trọng vào mảng phân tích ý kiến, cũng được biết đến như mảng đánh giá quan điểm.
- Hệ thống đánh giá quan điểm thường cố gắng tìm ra những từ, cụm từ chỉ ý kiến, xác định chiều hướng của những từ, cụm từ, sau đó phân lớp câu, đoạn hay toàn bộ tài liệu dựa trên những xu hướng quan điểm đó.
- Bởi vậy, nhiệm vụ thông thường của hệ thống đánh giá quan điểm bao gồm nhận biết từ, cụm từ chỉ quan điểm và phân loại tài liệu hoặc câu theo các chiều hướng quan điểm.
- Từ cách đây một vài năm, việc đánh giá quan điểm đã trở thành chủ đề nóng giữa các nhà nghiên cứu xử lý ngôn ngữ tự nhiên và trích chọn thông tin.
- Nhiều nỗ lực lớn dành cho việc nghiên cứu ở mảng này, có khá nhiều các bài báo được xuất bản và những ứng dụng khác nhau có sử dụng hệ thống đánh giá quan điểm được phát triển và đưa vào trong hoạt động thương mại.
- Mặc dù các ứng dụng dựa trên hệ thống đánh giá quan điểm có mục đích, vấn đề trọng tâm, điểm nổi bật khác nhau.
- tuy nhiên chúng thường được chia thành 3 phần chính: xác định từ, cụm từ chỉ quan điểm.
- xác định xu hướng quan điểm và phân loại câu hay văn bản chỉ quan điểm.
- 2.1.1 Xác định từ, cụm từ quan điểm.
- Những từ, cụm từ chỉ quan điểm là những từ ngữ được sử dụng để diễn tả cảm xúc, ý kiến người viết.
- Việc rút ra những từ, cụm từ chỉ quan điểm là giai đoạn đầu tiên trong hệ thống đánh giá quan điểm, vì những từ, cụm từ này là những chìa khóa cho công việc nhận biết và phân loại tài liệu sau đó.
- Ứng dụng dựa trên hệ thống đánh giá quan điểm hiện nay tập trung vào các từ chỉ nội dung câu: danh từ, động từ, tính từ và phó từ.
- Việc gán nhãn từ loại cũng được sử dụng trong công việc này, điều này có thể giúp cho việc nhận biết xu hướng quan điểm trong giai đoạn tiếp theo.
- Những kĩ thuật phân tích ngôn ngữ tự nhiên khác như xóa stopwords, stemming cũng được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quan điểm..
- 2.1.2 Xác định chiều hướng từ, cụm từ quan điểm.
- Phương pháp chính để nhận biết xu hướng quan điểm của những từ, cụm từ chỉ cảm nghĩ là dựa trên thống kê hoặc dựa trên từ vựng.
- Hệ thống của chúng tôi dùng luật để xác định chiều hướng và từ quan điểm cũng chính là phương pháp dựa trên từ vựng..
- Sau đó với mỗi một câu trong dữ liệu chỉ quan điểm, họ rút ra tất cả những tính từ được coi là những từ chỉ quan điểm.
- Kết quả thực nghiệm việc rút ra những câu đánh giá quan điểm có độ chính xác (precision) khoảng 64.2% và recall là 69.3%..
- Trước khi phân loại quan điểm từ, họ sử dụng POS tagging để rút ra các tính từ và phó từ dựa trên phương pháp tiếp cận của Brill (1994) [1].
- Turney là một thước đo mức độ liên hệ về quan điểm giữa 2 từ được sử dụng.
- Trong hệ thống của chúng tôi, tính từ và phó từ là hai từ loại rất hay được sử dụng trong luật để nhận dạng từ quan điểm.
- Nasukawa và Yi xem xét rằng bên cạnh các tính từ và phó từ, thì các động từ cũng có thể diễn tả quan điểm trong hệ thống đánh giá quan điểm của họ.
- Họ phân loại các động từ có liên quan đến quan điểm thành 2 loại.
- Trong hệ thống của chúng tôi động từ cũng được chúng tôi xét đến nhưng dùng luật để xác định quan điểm và không dùng phân tích cú pháp bởi phân tích cú pháp cho tiếng Việt hiện giờ còn chưa có độ chính xác cao.
- Việc nhận biết xu hướng từ / cụm từ chỉ quan điểm được sử dụng trong phân lớp câu / tài liệu như trong Hu và Liu (2004a) [12].
- Hu và Liu (2004a) [12] dự đoán xu hướng câu chỉ quan điểm trong nghiên cứu của họ đối với nhận xét của người dùng.
- Họ sử dụng xu hướng chiếm ưu thế của các từ chỉ quan điểm bằng cách tính theo tính đối lập của chúng để xác định xu hướng của cả câu.
- Và sau đó rút ra các từ / cụm từ chỉ quan điểm dựa trên phương pháp tiếp cận của Hatzivassiloglou và McKeown và nhận biết xu hướng dựa trên phương pháp của Turney .
- Hệ thống của chúng tôi với mục đích dựa trên nhận dạng từ quan điểm để phân loại câu tuy nhiên khác với những câu thông thường.
- Tuy nhiên các loại từ khác cũng có thể mang lại tính hiệu quả trong việc phân loại quan điểm.
- cũng có thể được sử dụng trong phân loại câu chỉ quan điểm..
- 2.2.2 Thuật ngữ chỉ quan điểm Nhiều công trình nghiên cứu như (Nasukawa và Yi, 2003 [15].
- Esuli và Sebastiani xây dựng một hệ thống thuật ngữ có giá trị thông dụng trong việc đánh giá quan điểm – SentiWordNet, một WordNet (Fellbaum nhấn mạnh vào xu hướng quan điểm của các từ.
- Hu và Liu (2004a) [12] sử dụng định hướng đối lập nếu từ tiêu cực xuất hiện gần hơn xung quanh từ chỉ quan điểm trong câu.
- Trong hệ thống của chúng tôi cũng xét đến những loại từ này tuy nhiên cũng chỉ xét trong phạm vi khi có 2 loại quan điểm là positive và negative.
- 2.2.4 Cấp độ quan điểm Như trong Esuli và Sebastiani một vài nhiệm vụ liên quan đến cấp độ quan điểm trong hệ thống đánh giá quan điểm.
- cũng có thể được dùng để xác định mức độ xu hướng quan điểm của câu.
- Cấp độ quan điểm này làm cho việc xét mức độ đánh giá quan điểm được chính xác hơn tuy nhiên trong hệ thống của chúng tôi bước đầu chỉ sử dụng 2 loại quan điểm là positive và negative do vậy việc xét cấp độ quan điểm của chúng tôi chỉ dừng lại ở 2 lớp này và không đi sâu hơn.
- Sự phức tạp của tài liệu có thể tạo nên vấn đề lớn hơn đối việc phân lớp tài liệu chỉ quan điểm.
- Do đó sẽ khó cho hệ thống phân lớp quan điểm để xác định xu hướng trung thực và quan điểm của người phê bình đối với mỗi bộ phim.
- Khi gặp những tình huống như thế này, hệ thống rất dễ bị lỗi khi phân lớp quan điểm này là tiêu cực.
- Trong trường hợp này, POS tagging là một công cụ tốt giúp nhận biết xu hướng quan điểm.
- Trong phương pháp xây dựng hệ thống đánh giá quan điểm dựa trên luật chúng tôi cũng sử dụng khá nhiều luật để mô tả cho từng ngữ cảnh.
- Hệ thống của chúng tôi hiện đang chú trọng vào đánh giá quan điểm người dùng cho máy tính (laptop & desktop).
- Tầng xử lý (Processing Layer): Gồm các thành phần xử lý khác nhau như: tách từ (word segmentation), gán nhãn từ loại (POS tag), nhận dạng từ quan điểm.
- Ví dụ: Hệ thống đánh giá quan điểm người dùng của chúng tôi gồm các thành phần.
- Hệ thống đánh giá quan điểm người dùng.
- Như ở chương 2 chúng tôi đã đưa ra một số hướng tiếp cận cho bài toán đánh giá quan điểm.
- Ở đây chúng tôi xây dựng hệ thống đánh giá quan điểm người dùng dựa trên hướng tiếp cận về luật và phân lớp ở mức câu.
- Hệ thống của chúng tôi có mục đích đánh giá quan điểm như vậy xét trong phạm vi từ, những từ về quan điểm là cần thiết nhất, chúng tôi dùng 2 gán nhãn PosWord và NegWord để phân lớp cho từ quan điểm.
- Hệ thống của chúng tôi đánh giá quan điểm xét ở mức câu chính vì vậy những nhãn về câu là không thể thiếu.
- Ngoài ra khi đối với câu không có từ quan điểm thì có một kiểu câu khác vẫn có ý nghĩa đánh giá quan điểm là câu so sánh.
- 4.3 Xây dựng hệ thống đánh giá quan điểm.
- Như trong chương 2 chúng tôi đã nói đến những hệ thống gần đây, hệ thống của chúng tôi cũng được xây dựng dựa trên 3 thành phần chính: xác định từ, cụm từ chỉ quan điểm.
- xác định xu hướng quan điểm.
- và phân lớp câu chỉ quan điểm.
- 4.3.1 Mô tả tổng quan hệ thống Hệ thống đánh giá quan điểm của chúng tôi được chia thành 4 phần chính như sau:.
- Xác định từ, cụm từ chỉ quan điểm và xu hướng quan điểm của nó..
- Xác định câu và phân lớp câu chỉ quan điểm.
- Dựa trên tiền xử lý chúng tôi dùng luật để xác định các từ, cụm từ chỉ quan điểm:.
- Sau khi đã nhận dạng được các từ, cụm từ (nếu có thêm ReverseOpinion) chỉ quan điểm chúng tôi tiến hành chia câu và xác định quan điểm của câu: “HP dv 4 có thiết kế bắt mắt, ưa nhìn tuy nhiên giá quá cao.”.
- Chúng tôi đưa ra mô hình xử lý trên GATE như sau [Hình 10]: Hình 10 - Mô tả chi tiết hệ thống đánh giá quan điểm người dùng trên GATE.
- Bộ gán nhãn từ loại · Bộ từ điển · Bộ luật · Bộ đánh giá Features Để hiểu chi tiết hơn về hệ thống đánh giá quan điểm người dùng trên văn bản tiếng Việt xây dựng trên nền GATE, chúng ta sẽ đi sâu hơn tìm hiểu về từng bộ phận của hệ thống..
- Những từ điển chứa các từ dùng để viết luật xác định từ quan điểm:.
- Xử lý · Xác định những từ chỉ quan điểm và phân loại thành 2 hướng positive (PosWord) và negative (NegWord)..
- từ mang quan điểm.
- 4.3.4.2 Xác định những từ chỉ quan điểm.
- Do vậy nếu như càng đánh giá được chính xác những từ chỉ quan điểm hệ thống càng có độ chính xác cao..
- Tiếp theo phải kể đến những từ quan trọng làm thay đổi nghĩa của quan điểm.
- Trong việc xác định từ so sánh chúng tôi chỉ xác định với mục đích giúp cho việc đánh giá quan điểm tốt hơn cho nên không xét những câu mang ý nghĩa quan điểm.
- Có nghĩa từ so sánh ở đây đứng độc lập và không kèm theo từ đánh giá quan điểm.
- 4.3.3.5 Xác định câu đơn và phân loại Như đã nói ở chương 2 sự phức tạp ở câu là một vấn đề gây nhiều khó khăn cho việc đánh giá chính xác quan điểm.
- Câu đánh giá cả hai hướng (MixSen): có cả hai loại từ đánh giá quan điểm positive và negative.
- Câu thông thường: câu không mang từ đánh giá quan điểm nào.
- Ở đây chúng tôi quy đổi ra theo đơn vị đo độ quan điểm tích cực theo thang đo từ 0.0.
- Độ quan điểm tích cực = {số positive.
- Độ lệch quan điểm tích cực.
- Độ quan điểm tích cực của Feature đánh giá bởi hệ thống (số positive / số negative).
- Độ quan điểm tích cực của Feature đánh giá chuẩn.
- Trong khi đó từ “thỏa mãn” cũng mang ý nghĩa positive tuy nhiên do bộ gán nhãn từ loại không xác định được từ loại của từ đó (nhãn là X) [Hình 12] cho nên hệ thống của chúng tôi cũng không xác định được từ quan điểm này.
- Chương 6 Tổng kết và hướng phát triển Chúng tôi bước đầu xây dựng một hệ thống đánh giá quan điểm người dùng cho tiếng Việt dựa trên luật và phân lớp ở mức câu.
- Hệ thống được thiết kế trên nền GATE để cộng đồng có thể dễ dàng tiếp cận và phát triển cho bài toán đánh giá quan điểm người dùng.
- mức câu (F-measure: 63%) và mức văn bản theo Features (89%) có thể nói là một kết quả đáng khả quan mở đầu cho bài toán đánh giá quan điểm người dùng trên hệ thống tiếng Việt..
- Bên cạnh hệ thống đánh giá quan điểm cho văn bản tiếng Việt, chúng tôi còn xây dựng được một tài liệu định nghĩa và một tập dữ liệu đã được gán nhãn chuẩn