« Home « Kết quả tìm kiếm

PHÂN LOẠI Ý KIẾN TRÊN TWITTER


Tóm tắt Xem thử

- PHÂN LOẠI Ý KIẾN TRÊN TWITTER Võ Tuyết Ngân 1 và Đỗ Thanh Nghị 2.
- 2 Khoa Cơng nghệ Thơng tin &.
- Phân loại văn bản, phân loại ý kiến, mơ hình túi từ Bow, máy học vectơ hỗ trợ SVM, giải thuật Nạve Bayes, mạng ngữ nghĩa.
- Multinomial Nạve Bayes (MNB), WordNet.
- Phân loại ý kiến trên Twitter là phân loại cho từng bình luận theo hướng quan điểm tích cực hay tiêu cực dựa trên nội dung bình luận.
- Trong bài viết này, chúng tơi đề xuất sử dụng mơ hình túi từ và giải thuật máy học Multinomial Nạve Bayes để phân loại ý kiến.
- Ở bước đầu tiên, từ tập dữ liệu thơ là những ý kiến trên Twitter được thu thập theo chủ đề, chúng tơi tiến hành tiền xử lý các kí tự đặc biệt của Twitter, các kí tự trùng lặp gần nhau, từ viết tắt, tiếng lĩng, biểu tượng cảm xúc, mạng ngữ nghĩa, biểu diễn văn bản theo mơ hình túi từ.
- Giai đoạn tiền xử lý cho ra tập dữ liệu cĩ số chiều lớn, nhưng trong đĩ đa số (khoảng 99%) các giá trị bằng 0.
- Để tiết kiệm bộ nhớ, chiến lược lưu trữ chỉ lưu những giá trị khác 0 (theo định dạng LibSVM).
- Cách lưu trữ này dẫn đến yêu cầu cài đặt lại giải thuật.
- Cần thiết phải cĩ những nghiên cứu để xác định được thơng tin gì là cần thiết và thơng tin nào là dư thừa.
- Các nhà nghiên cứu xử lý ngơn ngữ tự nhiên và trích chọn thơng tin đều đi tìm câu trả lời cho câu hỏi đĩ.
- Câu trả lời cho những câu hỏi này nằm trong nghiên cứu về “Opinion Mining” hay cịn gọi “phân tích ý kiến người dùng”..
- Thơng thường, để đánh giá về một sản phẩm nào đĩ, nhà nghiên cứu sẽ trích chọn những đặc điểm riêng (Features) của sản phẩm.
- Vài năm trở lại đây, phân loại ý kiến trên mạng xã hội Twitter là chủ đề nĩng giữa các nhà nghiên cứu.
- Ưu điểm của Twitter là cho phép người dùng tìm kiếm những bình luận (tweet) theo từ khĩa của họ, hơn nữa Twitter cĩ hỗ trợ các API cho phép sao chép những bình luận này về, tạo thuận lợi cho việc nghiên cứu.
- Tuy nhiên, mỗi bình luận của Twitter chỉ giới hạn 140 kí tự, lượng thơng tin thu về khá hạn chế nên việc phân tích ý kiến gặp phải nhiều khĩ khăn..
- Cho tới nay, phần lớn nghiên cứu phân loại ý kiến trên Twitter tập trung vào các đặc trưng, họ.
- Tuy nhiên, điều này mang tính chủ quan vì các loại từ khác cũng cĩ thể mang lại tính hiệu quả trong việc phân loại ý kiến..
- Một nhĩm nghiên cứu khác (Turney, 2002) định nghĩa các biểu hiện quan điểm trong thuật ngữ.
- Tuy nhiên, phương pháp này lại khơng được sử dụng rộng rãi và kết quả mang lại chưa cao.
- Cũng do một thực tế là các thuật ngữ ý kiến độc lập này khơng cĩ giá trị cơng khai, các nhĩm phân tích ý kiến khơng thể cộng tác với nhau và như vậy thì khơng thể đưa ra một tài liệu tiêu chuẩn cho việc sử dụng trong tương lai..
- Theo kết quả nghiên cứu, các nhà nghiên cứu cho rằng sử dụng mơ hình unigram kết hợp với giải thuật máy học Multinomial Nạve Bayes (MNB) đem lại hiệu quả cao, hơn nữa việc cài đặt khá đơn giản và mang tính khách quan.
- Smeaton, 2010) đã thu thập các ý kiến trên các blog, microblog (Twitter) để phân loại.
- Kết quả đạt được độ chính xác 74.85% cho phân lớp nhị phân (tích cực, tiêu cực) dựa trên mơ hình Unigram đối với microblog.
- Ngồi ra, hai ơng cịn đưa ra kết luận là độ chính xác của phân loại ý kiến trên microblog cao hơn blog, mặc dù lượng thơng tin trong các ý kiến của blog nhiều hơn, vectơ đặc trưng khơng thưa như microblog.
- Đối với những ý kiến ngắn, MNB cho kết quả tốt hơn SVM.
- Xuất phát từ nhu cầu thực tiễn trên, chúng tơi xin đề xuất cài đặt giải thuật MNB, mơ hình unigram để phân loại ý kiến của Twitter.
- Nghiên cứu sử dụng bộ từ vựng trên 15000 từ bao gồm nhiều từ loại, đề xuất cách lưu trữ dữ liệu thưa để tiết kiệm bộ nhớ đối với số lượng bình luận (tweet) lớn, hay gặp phải nếu chủ đề cần tìm được nhiều người quan tâm..
- Hình 1: Sơ đồ phân lớp ý kiến với giải thuật MNB 2 PHƯƠNG PHÁP NGHIÊN CỨU.
- 2.1 Tiền xử lý dữ liệu.
- Dữ liệu của mạng Twitter rất phức tạp, phi cấu trúc, nhiễu.
- Để cĩ thể phân lớp bằng giải thuật máy học, trước hết cần phải thực hiện các thao tác tiền xử lý..
- Chúng tơi cịn xử lý thêm các ký tự trùng lắp gần nhau, biểu tượng cảm xúc, từ viết tắt, tiếng lĩng, mạng ngữ nghĩa..
- Xử lý các kí tự trùng lắp gần nhau: Để loại bỏ ký tự trùng lắp gần nhau, đầu tiên phải tìm ra dãy chứa các kí tự trùng lắp, sau đĩ tiến hành loại bỏ các kí tự trùng lắp dựa trên biểu thức chính quy..
- Ở đây chúng tơi sẽ lấy 2 kí tự nằm.
- Xử lý từ viết tắt và tiếng lĩng: Bất kì mạng xã hội nào cũng chứa một vốn từ vựng là từ viết tắt và những tiếng lĩng do người sử dụng tạo ra.
- Twitter cũng vậy, điều này gây ra nhập nhằng trong việc tiền xử lý ngơn ngữ.
- Trong đề tài nghiên cứu này, chúng tơi sử dụng hơn 100 thuật ngữ của Twitter bao gồm: chữ viết tắt cũng các từ, cụm từ, cơng cụ kĩ thuật cĩ liên quan đến Twitter, được người dùng mạng xã hội này quy ước, sưu tập và truyền bá..
- Tương tự như phương pháp xử lý biểu tượng cảm xúc, lần lượt thay thế các từ viết tắt bằng ý nghĩa của chúng trong mỗi tweet..
- Xử lý mạng ngữ nghĩa: Mơ hình WordNet là một loại từ điển tương tự từ điển đồng nghĩa..
- Hình 2: Ví dụ về các bước tiền xử lý dữ liệu 2.2 Biểu diễn dữ liệu.
- Mơ hình Bag of Words (BoW) là một mơ hình được sử dụng phổ biến trong lĩnh vực phân loại văn bản.
- Mơ hình này thường sử dụng để xử lý ngơn ngữ tự nhiên, được dùng để biểu diễn tài liệu, xem tài liệu là một tập hợp các từ (words) mà khơng quan tâm đến thứ tự cũng như cấu trúc cú pháp của chúng..
- Một văn bản được biểu diễn dạng véc-tơ (cĩ n thành phần là các từ tương ứng) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản.
- Giả sử dữ liệu cĩ 15.000 tweets với 20.000 đặc trưng (từ vựng), thơng thường mỗi tweet sẽ được lưu trữ như sau:.
- Tần số xuất hiện.
- Đối với nghiên cứu này, chúng tơi đề xuất cách lưu trữ tiết kiệm bộ nhớ, tương tự như LibSVM [Chang &.
- Cách lưu trữ như sau:.
- tần số xuất hiện của từ i..
- Vì mỗi bình luận trên Twitter chỉ giới hạn 140 kí tự, nên số lượng các từ xuất hiện rất ít, trung bình từ 5 – 7 từ khi chưa xử lý wordnet, 10 - 12 từ khi đã xử lý wordnet.
- Nếu phải lưu tất cả các tần số xuất hiện của từng từ trong tweets, dữ liệu sẽ trở nên rất thưa, đa số đều mang giá trị 0, dẫn đến sự lãng phí bộ nhớ..
- Nếu lưu trữ tiết kiệm bộ nhớ, trung bình sẽ cĩ 6 đặc trưng tần số xuất hiện lớn hơn 0:.
- So với cách lưu trữ ban đầu, chúng ta tiết kiệm được bytes..
- Tất nhiên 15.000 tweets chỉ là một con số vơ cùng nhỏ so với lượng dữ liệu trên Twitter.
- Nếu dữ liệu càng lớn, ý nghĩa của việc lưu trữ tiết kiệm bộ nhớ sẽ được thể hiện càng rõ..
- 2.3 Phân loại ý kiến bằng giải thuật máy học MNB.
- Multinomial Nạve Bayes (MNB) là một mơ hình đơn giản nhưng hoạt động rất tốt trong việc phân loại văn bản.
- Gale, 1994] đã đề xuất kết hợp mơ hình túi từ và NB tạo ra giải thuật Multinomial Nạve Bayes.
- Gọi C là tập hợp các lớp của văn bản (C cĩ 2 phần tử +1 và -1).
- Gọi t i là một văn bản mới đến..
- 3 KẾT QUẢ VÀ THẢO LUẬN.
- Để đánh giá hiệu quả của phương pháp đề xuất, chúng tơi đã thực hiện cài đặt giải thuật MNB (Lewis &.
- Gale, 1994) (mơ đun phân loại ý kiến trên Twitter), sử dụng ngơn ngữ Python và thư viện wordnet NLTK của nĩ, đồng thời chúng tơi đã thay đổi cấu trúc chương trình thích hợp với cách lưu trữ tiết kiệm bộ nhớ.
- Chúng tơi sử dụng mơ đun biểu diễn dữ liệu theo mơ hình túi từ BoW (McCallum, 1988).
- Ngồi ra, chúng tơi cũng cần so sánh MNB với một giải thuật SVM chuẩn, được sử dụng phổ biến trong cộng đồng máy học là LibSVM (Chang &.
- Về dữ liệu thực nghiệm, chúng tơi sử dụng tập dữ liệu được sưu tập bởi [Go et al., 2009] được lấy từ các API thu thập theo định kì trên Twitter.
- Các tweets được chép trong khoảng thời gian từ ngày đến ngày 25/6/2009 với 72 chủ đề thuộc nhiều lĩnh vực: mua bán, kĩ thuật, âm nhạc, khu vực,… Kết quả ơng thu được 1 triệu 6 tweets với 8000 bình luận tích cực và 8000 bình luận tiêu cực khơng trùng nhau..
- Bộ dữ liệu 1 (bộ dữ liệu gốc): 15.000 bình luận được lấy ngẫu nhiên trong bộ dữ liệu 1 triệu 6 của (Go et al., 2009)..
- Bộ dữ liệu 2: là bộ dữ liệu gốc được xử lý biểu tượng cảm xúc..
- Bộ dữ liệu 3: là bộ dữ liệu 2 được xử lý từ viết tắt..
- Bộ dữ liệu 4: là bộ dữ liệu 3 được xử lý mạng ngữ nghĩa..
- Chúng tơi sử dụng nghi thức kiểm tra hold.
- TN: tổng số phần tử của lớp tiêu cực được mơ hình phân lớp là tiêu cực..
- FN: tổng số phần tử của lớp tích cực bị mơ hình phân lớp sai thành tiêu cực..
- FP: tổng số phần tử của lớp tiêu cực bị mơ hình phân lớp sai thành tích cực..
- TP rate (recall): độ chính xác của lớp tích cực..
- TN rate (recall): độ chính xác của lớp tiêu cực..
- Precision: là số phần tử được mơ hình phân lớp đúng về lớp tích cực chia cho tổng số phần tử được dự đốn là lớp tích cực..
- Sau khi tiến hành thử nghiệm nhiều lần giải thuật SVM, chúng tơi nhận thấy rằng sử dụng hàm nhân tuyến tính với hằng số cost = 1 (dung hịa độ lớn của lề phân hoạch và lỗi) cho kết quả phân lớp.
- Tất cả các giải thuật trên đều được thực hiện trên máy tính cá nhân (Intel Pentium T3400, 2.2 GHz, 2GB RAM] chạy hệ điều hành ubuntu 12.04.
- Sau khi chúng tơi tiến hành phân lớp trên 4 bộ dữ liệu, kết quả thu được từ 2 giải thuật máy học như trình bày trong Bảng 1, biểu đồ trong Hình 3..
- Dựa vào biểu đồ Hình 3, ta thấy giải thuật MNB phân lớp chính xác khi so sánh với giải thuật SVM.
- MNB cĩ thể lưu trữ tiết kiệm bộ nhớ theo định dạng của LibSVM, hơn nữa độ chính xác tổng thể của MNB cao hơn gần 10% so với SVM..
- Sau 2 bước tiền xử lý, hiệu quả của giải thuật tăng lên, tuy nhiên mức độ tăng chậm.
- Riêng đối với dữ liệu xử lý WordNet, các chỉ số giảm xuống đáng kể, kết quả thấp hơn khi chưa xử lý.
- Ngồi ra, tỉ lệ số phần tử lớp tích cực được dự đốn là lớp tích cực cao hơn tỉ lệ số phần tử lớp tiêu cực được dự đốn là lớp tiêu cực, ngoại trừ dữ liệu được xử lý WordNet..
- Bảng 1: Kết quả phân lớp ý kiến bằng 2 giải thuật MNB và SVM.
- Bộ 1 Bộ 2 Bộ 3 Bộ 4.
- Hình 3: Biểu đồ so sánh kết quả của 4 bộ dữ liệu bằng giải thuật MNB.
- Kết quả thực nghiệm cho phép chúng tơi tin rằng giải thuật MNB phân lớp ý kiến trên Twitter hiệu quả, kể cả số chiều lớn..
- 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tơi vừa trình bày một hướng tiếp cận trong việc phân loại ý kiến mạng xã hội, sử dụng phương pháp biểu diễn văn bản bằng mơ hình túi từ và giải thuật máy học MNB.
- Mơ hình túi từ được xây dựng đơn giản, nhanh, để biểu diễn văn bản dưới dạng véc-tơ tần số xuất hiện của từ trong văn bản, số chiều lớn.
- Thay vì lưu trữ đầy đủ giá trị của vectơ, chúng tơi đề xuất cách lưu trữ theo chuẩn LibSVM để tiết kiệm bộ nhớ.
- Chúng tơi đã cài đặt lại giải thuật máy học Multinomial Nạve Bayes để cĩ thể xử lý định dạng mới của tập dữ liệu.
- Kết quả thực nghiệm trên các tập dữ liệu cho thấy bản cài đặt mới của giải thuật Multinomial Nạve Bayes (MNB) phân lớp hiệu quả, đơn giản và chính xác khi so sánh với máy học SVM..
- Trong tương lai, chúng tơi tiếp tục nghiên cứu cho những chủ đề nhất định và các mạng xã hội khác, đặc biệt đối với mạng xã hội facebook với nội dung bình luận khơng hạn chế.
- Nghiên cứu tích hợp vào mạng xã hội dưới dạng ứng dụng, hỗ trợ cho các tổ chức kinh tế, chính trị, nghệ thuật..
- TT, Trường Đại học Cần Thơ và khoa chuyên ngành trường Cao đẳng Cộng đồng Cà Mau đã tạo điều kiện thuận lợi cho nhĩm tác giả hồn thành đề tài nghiên cứu..
- Đỗ Thanh Nghị (2011), “Phân loại thư rác với giải thuật ARCX4-rMNB”