« Home « Kết quả tìm kiếm

Trích chọn và xếp hạng đặc trưng sản phẩm trong phân tích quan điểm


Tóm tắt Xem thử

- Các khái niệm cơ bản về khai phá quan điểm.
- Bài toán trích chọn thuộc tính.
- CHƢƠNG 2: TRÍCH CHỌN THUỘC TÍNH.
- Mô hình chung cho bài toán phân tích quan điểm.
- Phƣơng pháp trích chọn thuộc tính.
- Phân loại thuộc tính.
- Sắp xếp thuộc tính.
- Với sự phát triển nhanh chóng và phong phú của Web, nhiều hình thức kết nối, chia sẻ, trao đổi thông tin xuất hiện trên các diễn đàn, nhóm thảo luận và những trang mạng xã hội nhƣ blog, facebook … Web đã thay đổi đáng kể cách thức ngƣời dùng bày tỏ quan điểm trên internet.
- Trong nhiều năm trở lại đây, lĩnh vực khai phá thông tin và tri thức đã phát triển một bài toán nghiên cứu mới là khai phá và phân tích quan điểm.
- Bài toán khai phá quan điểm đang đƣợc các nhà khoa học nghiên cứu với các chủ đề khác nhau.
- Ngoài ra, khai phá quan điểm còn giải quyết các bài toán xác định tên, xác định thuộc tính, xác định câu đánh giá quan trọng….
- Ứng với mỗi sản phẩm lại có những tính năng và thuộc tính khác nhau và chúng luôn đƣợc thay đổi theo hƣớng ngày càng hiện đại và đa dạng hơn.
- Việc xác định thuộc tính theo các phƣơng pháp truyền thống ngày càng trở nên khó khăn hơn.
- Vì vậy việc nghiên cứu và phát triển một hệ thống tự động phát hiện ra thuộc tính sản phẩm trong môi trƣờng internet là rất cần thiết..
- Trích chọn đặc trƣng sản phẩm là bài toán rất quan trọng trong khai phá và phân tích quan điểm.
- Một câu nhận xét có rất nhiều đặc trƣng, trong giới hạn của luận văn này chỉ tập trung vào việc trích chọn ra thuộc tính của sản phẩm và xếp hạng theo mức độ quan trọng của các thuộc tính..
- Hệ thống phân tích quan điểm tự động sẽ xác định đƣợc quan điểm của thuộc tính chất lượng hình ảnh.
- Ở đây, Sony camera là thực thể còn picture quality là thuộc tính của thực thể Sony camera..
- Trong luận văn này, tôi đi sâu vào nghiên cứu bài toán trích chọn và sắp xếp thuộc tính các của sản phẩm.
- Bằng việc nghiên cứu, phân tích các phƣơng pháp đã đƣợc áp dụng trƣớc đó, tôi lựa chọn trích chọn thuộc tính bằng phƣơng pháp lan truyền kép, quan hệ toàn bộ - bộ phận, mẫu “No” và sử dụng thuật toán HITS để xếp hạng thuộc tính sau khi đã đƣợc trích chọn..
- Quan điểm về sản phẩm, dịch vụ, một cá nhân, một tổ chức, sự kiện, chủ đề đƣợc thể hiện bởi con ngƣời hoặc tổ chức.
- Thuật ngữ thực thể để chỉ đối tƣợng mục tiêu cần đánh giá.
- Một thực thể bao gồm tập các thành phần và tập các thuộc tính.
- Mỗi thành phần lại có các thành phần con và các thuộc tính của nó.
- và W là một tập các thuộc tính của e..
- Một thƣơng hiệu nổi tiếng của điện thoại di động đƣợc coi là một thực thể ví dụ nhƣ Iphone.
- Nó bao gồm các thành phần: màn hình, pin, vỏ … và một tập các thuộc tính nhƣ chất lƣợng âm thanh, kích thƣớc, trọng lƣợng…Thành phần pin cũng có các thuộc tính của riêng nó: tuổi thọ pin, kích thƣớc pin….
- Dựa trên khái niệm này thì thực thể có thể đƣợc thể hiện dƣới dạng cây phân cấp..
- Mỗi nút đƣợc liên kết với một tập hợp các thuộc tính.
- Một ý kiến có thể đƣợc thể hiện trên bất kỳ nút và các thuộc tính của nút..
- hoặc trên bất kỳ một trong những thuộc tính của nó “Chất lượng âm thanh của Iphone thật tệ hại”.
- Chất lƣợng âm thanh là thuộc tính của loa, loa là thuộc tính của điện thoại, thể ở đây là của thực thể Iphone.
- “Không thích” và “tệ hại” là quan điểm của ngƣời dùng.
- Tƣơng tự nhƣ vậy, ngƣời ta có thể đƣa ra ý kiến trên bất kỳ các thành phần của thực thể hoặc bất kỳ thuộc tính nào của thành phần..
- Do đó, để đơn giản hóa và san bằng cây chỉ còn hai cấp bằng việc sử dụng các thuộc tính (aspect) để biểu thị cả hai (thành phần và thuộc tính).
- Cây lúc này có nút gốc là thực thể chính nó, các nút ở mức hai là những thuộc tính khác nhau của thực thể..
- Thuộc tính (aspect): Các thuộc tính của một thực thể e là các thành phần và các thuộc tính của e.
- Một thể hiện thuộc tính là một từ hoặc một cụm từ xuất hiện trong.
- văn bản chỉ ra một thuộc tính..
- Ví dụ: Trong lĩnh vực điện thoại di động, một thuộc tính có thể đƣợc đặt tên là chất lƣợng âm thanh.
- Có rất nhiều thể hiện có thể chỉ ra đƣợc thuộc tính nhƣ: âm thanh, tiếng nói, chất lƣợng âm thanh….
- Thuộc tính thƣờng là danh từ và cụm danh từ, cũng có thể là động từ, tính từ, trạng từ.
- Ví dụ “Âm thanh của điện thoại này là rõ ràng”, “âm thanh” ở đây là một thuộc tính với vai trò là danh từ trong câu.
- “Lớn” trong câu “Điện thoại này quá lớn” là thuộc tính tiềm ẩn ngụ ý kích thƣớc thuộc tính..
- Nhiều thể hiện thuộc tính ẩn là tính từ và trạng từ, mà cũng bao hàm một số thuộc tính cụ thể, ví dụ nhƣ đắt tiền (giá), đáng tin cậy (độ tin cậy).
- Thể hiện của thuộc tính ẩn không chỉ là tính từ và trạng từ mà có thể phức tạp, ví dụ nhƣ "Điện thoại này sẽ không dễ dàng phù hợp trong túi".
- cho biết kích thƣớc hoặc hình dạng của thuộc tính.
- Trong luận văn này, chúng ta tập trung chủ yếu vào thể hiện thuộc tính rõ ràng, vì hầu hết các thuộc tính trong các tài liệu quan điểm đƣợc thể hiện một cách rõ ràng..
- Cũng nhƣ thuộc tính, một thực thể cũng có tên và thể hiện chỉ ra thực thể.
- Thể hiện của thực thể (entity expression): một thể hiện của thực thể là một từ hoặc cụm từ xuất hiện trong văn bản chỉ ra một thực thể..
- Để đánh giá sản phẩm và các blog, chủ sở hữu quan điểm thƣờng là tác giả của các bài đăng..
- Quan điểm có hai loại chính: quan điểm thông thƣờng và quan điểm so sánh.
- Quan điểm thông thƣờng đƣợc gọi đơn giản là quan điểm trong các tài liệu nghiên cứu.
- Một quan điểm so sánh thể hiện một mối quan hệ là giống hay khác nhau giữa hai hay nhiều thực thể, mà thƣờng đƣợc thể hiện bằng cách sử dụng hình thức so sánh của tính từ hoặc trạng từ.
- Ở đây, ta cũng chỉ tập trung vào quan điểm không thƣờng xuyên..
- Về cơ bản, một quan điểm là một cái nhìn tích cực hay tiêu cực, thái độ, cảm xúc hay đánh giá về một thực thể hay một thuộc tính của thực thể từ một ngƣời có quan điểm.
- Tích cực, tiêu cực và trung lập đƣợc gọi là định hƣớng quan điểm.
- Tên khác cho định hƣớng quan điểm là định hƣớng tình cảm, định hƣớng ngữ nghĩa, hoặc phân cực..
- Ta có khái niệm về quan điểm (Liu 2010).
- Quan điểm (Opinion.
- e j : là thực thể mục tiêu.
- a jk : là một khía cạnh của thực thể.
- so ijkl : Giá trị của quan điểm của ngƣời h i trên khía ca ̣nh a jk của thực thể e j .
- (e j , a jk ) còn đƣợc gọi là mục tiêu quan điểm , quan điểm ma ̀ không có mu ̣c tiêu thì.
- Sau đây, ta sẽ định nghĩa mô hình thực thể, mô hình tài liệu chứa quan điểm và mục đích khai thác quan điểm đƣợc gọi chung là khai thác quan điểm dựa trên thuộc tính..
- Mô hình thực thể (model of entity): Một thực thể e i đƣợc thể hiện chính nó hoặc bao gồm một tập hữu hạn các thuộc tínhA i = {a i1 , a i2.
- Chính những thực thể có thể có thể đƣợc thể hiện bởi một tập các thể hiện thực thể OE i = {oe i1 , oe i2.
- Mỗi thuộc tính a ij  A i của thực thể có thể đƣợc thể hiện bởi một trong các tập hữu hạn các thể hiện của thuộc tínhAE ij = {ae ij1 , ae ij2.
- Mô hình tài liệu chứa quan điểm (Model of opinionated document): Một tài liệu chứa quan điểm d bao gồm quan điểm trên một tập các thực thể {e 1 , e 2.
- e r } từ những ngƣời có quan điểm {h 1 , h 2.
- Quan điểm trên mỗi thực thể e i là thể hiện trên chính thực thể và tập con A id thuộc tính của nó..
- Mục tiêu của khai phá quan điểm: Với tập các tài liệu chứa quan điểm D, khám phá ra tất cả các quan điểm (e i , a ij , oo ijkl , h k , t l ) trong D..
- Những bài toán trong khai phá quan điểm.
- Khai phá quan điểm hay còn gọi là phân tích quan điểm có các bài toán lớn sau [5]:.
- Tìm và lọc dữ liệu chứa quan điểm rồi phân tích - Xác định tri thức trong dữ liệu quan điểm.
- Phân tích thuộc tính của sản phẩm - Những bài toán khác.
- Tìm và lọc dữ liệu chứa quan điểm rồi phân tích.
- Phát hiện thƣ rác nhƣ vậy là rất quan trọng trong khai phá quan điểm..
- Xác định tri thức trong dữ liệu quan điểm.
- Phân tích thuộc tính của sản phẩm.
- Bài toán đi sâu vào giải ba bài toán con: Phân loại thuộc tính là tích cực hay tiêu cực (pos/neg), xếp hạng thuộc tính (rating), xác định trọng số (độ quan trọng của thuộc tính)..
- Phân loại thuộc tính là tìm hiểu các thuộc tính của đối tƣợng mà ngƣời dùng đánh giá là tích cực hay tiêu tực, thích hay không thích.
- Quan điểm này thƣờng đƣợc thể hiện ở mức câu.
- Ngƣời dùng nhận xét về thuộc tính là “pin” và ý kiến là tiêu cực.
- Bài toán xếp hạng thuộc tính là bài toán đƣợc Bing Liu và các cộng sự đƣa ra [4]..
- Nhiệm vụ của bài toán là xác định thuộc tính của sản phẩm mà đƣợc đánh giá bởi khách hàng sau đó xếp hạng thuộc tính theo tần số xuất hiện của chúng..
- Bài toán xác định trọng số thuộc tính là bài toán xác định các thuộc tính của sản phẩm sau đó tính trọng số rồi xếp hạng chúng.
- Ngoài các bài toán trên, khai phá quan điểm còn giải quyết các bài toán: Xác định Tên trong văn bản (Name detection), xác định thuộc tính (aspect determination), xác định bình luận quan trọng (so sánh)…..
- Bài toán trích chọn thuộc tính trong khai phá quan điểm là xác định thuộc tính trong các bài viết của nhiều khách hàng về sản phẩm, dịch vụ, tổ chức… Trong bài viết đó, những từ là thuộc tính sẽ đƣợc trích chọn.
- Phƣơng pháp dùng để trích chọn những thuộc tính đƣợc Bing Liu [5] nêu ra là coi những danh từ, cụm danh từ thƣờng xuyên xuất hiện trong các đánh giá là thuộc tính của sản phẩm.
- Tuy nhiên phƣơng pháp này không trích chọn đƣợc thuộc tính mang nghĩa ngầm định..
- Một hƣớng tiếp cận khác để trích chọn thuộc tính là sử dụng phƣơng pháp thông tin tƣơng hỗ trên từng thời điểm (Pointwise Mutual Information – PMI).
- Hƣớng tiếp cận này xác định danh từ hoặc cụm danh từ là thuộc tính theo trọng số PMI, nghĩa là giá trị PMI thấp nó có thể không là thuộc tính của sản phẩm, giá trị PMI cao danh từ, cụm danh từ đó là thuộc tính của sản phẩm.
- Một phƣơng pháp nữa đƣợc đề xuất bởi Scaffidi [2] là sử dụng mô hình ngôn ngữ để trích chọn thuộc tính của sản phẩm.
- Ý tƣởng của phƣơng pháp này là tính tổng số lần xuất hiện của thuộc tính sản phẩm trong văn bản đánh giá.
- Liu [8] đề xuất phƣơng pháp “lan truyền kép” (double propagation) để trích chọn thuộc tính.
- Hƣớng tiếp cận này sử dụng mối quan hệ giữa thuộc tính sản phẩm và từ chứa quan điểm.
- Trƣớc đó, thuộc tính có thể đƣợc xác định bằng cách sử dụng từ quan điểm.
- Từ chứa quan điểm và thuộc tính mới sau khi trích chọn đƣợc sử dụng để trích chọn từ chứa quan điểm và thuộc tính chƣa có.
- Quá trình này sẽ dừng lại khi không còn từ quan điểm, thuộc tính nào đƣợc trích chọn thêm nữa.