« Home « Kết quả tìm kiếm

Nghiên cứu giải thuật học cộng tác (Co-training) và ứng dụng vào bài toán khai phá quan điểm


Tóm tắt Xem thử

- quan điểm.
- các thuật toán học có giám sát và phương pháp đánh giá bộ phân lớp.
- lựa chọn dữ liệu.
- tiền xử lý dữ liệu cũng như chuẩn bị dữ liệu.
- Khai phá dữ liệu.
- Do đặc điểm chỉ cần lượng nhỏ dữ liệu đã được gắn nhãn cùng với lượng lớn dữ liệu chưa được gắn nhãn làm dữ liệu huấn luyện.
- Điều này giúp cho việc thu thập, gắn nhãn cho tập dữ liệu huấn luyện ít tốn kém hơn..
- Đề tài luận văn này định hướng giải quyết bài toán phân lớp các câu cảm nghĩ như sau:.
- Phân lớp xem câu nào là câu mô tả cảm.
- Đối với những câu mô tả cảm nghĩ, dùng bộ phân lớp phân cực để xác định đó là câu mô tả cảm nghĩ tích cực, tiêu cực hay trung lập.
- Trong đó, các bộ phân lớp được xây dựng dựa trên kỹ thuật Co-training..
- Khai phá dữ liệu (KPDL) là một chuyên ngành mới, thu hút được nhiều nghiên cứu trong thời gian gần đây.
- Hướng tiếp cận và giải quyết vấn đề dựa trên KPDL là hoàn toàn khác so với cách xử lý Cơ sở dữ liệu (CSDL) truyền thống.
- KPDL có thể đưa ra kết quả là những tri thức tiềm ẩn trong tập dữ liệu mà các xử lý truyền thống như trước đây không thể truy vấn được..
- Dữ liệu dạng text là dạng dữ liệu tự nhiên và chiếm tỉ lệ nhiều nhất trong các dạng dữ liệu mà con người tạo ra.
- Dữ liệu text thường ẩn chứa rất nhiều tri thức có giá trị mà con người tạo ra nhằm chia sẻ với mọi người về các kinh nghiệm đã trãi qua.
- Bài toán khai phá quan điểm trong phạm vi luận văn này gồm hai bài toán phân lớp con: (1) phân lớp sự tồn tại của cảm nghĩ trong câu.
- (2) phân lớp tính phân cực của cảm nghĩ trong câu.
- Dữ liệu được sử dụng làm dữ liệu huấn luyện, đánh giá được trích chọn từ kho dữ liệu MPQA2.0.
- Thuật toán phân lớp cơ sở được chọn là thuật toán SVM..
- Để đạt được mục tiêu trên, nghiên cứu sẽ được tiến hành qua các bước: tìm hiểu về kho dữ liệu MPQA2.0.
- các bước tiền xử lý và chuẩn bị dữ liệu cho phân lớp, cài đặc hai bộ phân lớp con riêng lẻ, hai bộ phân lớp con dựa trên Co-training với các nhãn phân lớp tương ứng là nhãn về sự tồn tại cảm nghĩ và nhãn về tính phân cực cảm nghĩ ở mức câu.
- Khai phá quan điểm.
- Khai phá quan điểm, một dạng của xử lý ngôn ngữ tự nhiên, là một lĩnh vực nghiên cứu mới nhằm trích rút thông tin về cảm nghĩ từ các nguồn dữ liệu text.
- học có giám sát (supervised learning), như là phân lớp, hồi quy, trong đó tất cả dữ liệu đều có nhãn.
- Học có giám sát hay còn được gọi là Phân lớp, như đã nêu trong phần 2.1.4, là tiến trình khám phá các luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp.
- xây dựng được mô hình trong đó giá trị của một biến có thể dự đoán từ các giá trị của các biến khác từ một tập dữ liệu đã biết tất cả biến..
- SVM rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như dữ liệu vector biểu diễn văn bản.
- Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị phân tức là số lớp hạn chế ở mức hai lớp.
- SVM được đánh giá là bộ phân lớp chính xác nhất cho bài toán phân lớp văn bản [7].
- Trong đó, tác giả đã chứng minh tính hiệu quả của nó bằng thực nghiệm trên bài toán phân lớp trang Web của trường đại học dựa trên hai khung nhìn là từ vựng trên bản thân trang và từ vựng trên các trang có liên kết chỉ đến nó.
- Trong [4], ở mỗi lần lặp huấn luyện - dự đoán – điều chỉnh tập huấn luyện, thì những mẫu được dự đoán tốt nhất của cả hai bộ phân lớp cơ sở đều được loại khỏi tập không nhãn và thêm vào tập có nhãn rồi quay lại bước lặp tiếp theo cho đến khi tập không nhãn rỗng..
- thuật toán học cộng tác dựa trên sự cộng tác của các giải thuật phân lớp khác nhau [1].
- Một trong những kỹ thuật học bán giám sát tiêu biểu là Co-training, trong đó hai (hoặc nhiều hơn) bộ học được huấn luyện trên một tập dữ liệu mẫu, nhưng các bộ học được huấn luyện trên các tập thuộc tính độc lập nhau..
- Có tập dữ liệu mẫu huấn luyện là , với.
- Chi tiết thuật toán với phân lớp nhị phân như sau:.
- Với số lượng nhiều dữ liệu chưa nhãn cho P(x|y) mô hình đồng nhất, tài liệu được phân thành các thành phần mà trong trường hợp lý tưởng (trong mô hình “đồng nhất”) mọi đối tượng trong một thành phần có cùng nhãn, vì vậy, chỉ cần biết nhãn của một đối tượng nào đó trong thành phần là kết luận được nhãn cho toàn bộ các đối tượng khác trong thành phần đó..
- Phƣơng pháp đánh giá bộ phân lớp.
- Hai độ đo được dùng phổ biến để đánh giá bộ phân lớp là độ hồi tưởng (recall) ρ và độ chính xác (precision) π..
- Do đó thuật toán SVM sẽ được chọn để cài đặt cho các bộ phân lớp dựa trên học có giám sát cũng như bán giám sát..
- Dùng L để huấn luyện bộ phân lớp C 1 theo đặc trưng X 1 3.
- Dùng L để huấn luyện bộ phân lớp C 2 theo đặc trưng X 2 4.
- Mục tiêu của đề tài là xây dựng được hai bộ phân lớp Co-training trên nhãn về tính chủ quan (bộ phân lớp nhị phân) và nhãn về tính phân cực cảm nghĩ (bộ phân lớp đa lớp) sao cho chất lượng của chúng tốt hơn so với cách tiếp cận học có giám sát..
- Lựa chọn dữ liệu.
- Việc chọn MPQA2.0 là căn cứ trên lượng dữ liệu lớn (gồm 692 tài liệu, 15.802 câu, 21 chủ đề được bố trí vào 5 tập con khác nhau) và sơ đồ đánh dấu (Annotation Scheme, như là agent, expressive-subjectivity, direct-subjective, objective-speech-event, attitude, target, inside) cho phép xác định nhãn chủ quan và nhãn phân cực cảm nghĩ ở mức câu một cách dễ dàng..
- các bộ phân lớp thành viên về nhãn phân cực cảm nghĩ (tích cực, tiêu cực) đối với một từ (term), vì vậy một từ (term) có thể có Pos.Score và Neg.Score khác không, miễn là phù hợp với công thức: Pos.Score(term.
- Tham số được thiết lập giá trị 0,5 vì giả định rằng tất cả các câu được đưa vào bộ phân lớp phân cực cảm nghĩ đều là câu chứa cảm nghĩ (chủ quan)..
- Tiền xử lý dữ liệu.
- Ở bước này, dữ liệu từ kho MPQA2.0 được truy xuất và xử lý theo từng tập con tương ứng.
- Tiền xử lý dữ liệu 3.5.
- Chuẩn bị dữ liệu.
- Chuẩn bị dữ liệu là tổ chức dữ liệu dùng cho từng thực nghiệm theo định dạng của thư viện LibSVM (nêu trong mục 3.6.1)..
- Chuẩn bị dữ liệu 3.5.1.
- Các tiêu chí chuẩn bị dữ liệu.
- Các tiêu chí khi chuẩn bị dữ liệu cho thực nghiệm bao gồm: tương quan số lượng câu của tập huấn luyện và tập đánh giá.
- ảnh hưởng của số lượng từ khóa trong câu thuộc tập huấn luyện có nhãn lên chất lượng phân lớp.
- ảnh hưởng của tỉ lệ tập huấn luyện có nhãn/không nhãn lên chất lượng phân lớp..
- Các cách chọn dữ liệu.
- Thực nghiệm 1 (chỉ học có giám sát): đánh giá đặc trưng, tham số phân lớp SVM.
- Cố định tập dữ liệu huấn luyện/đánh giá, thay đổi các tham số phân lớp SVM.
- Tập ORI được chọn làm dữ liệu huấn luyện do kích thước lớn (11.111 câu), tập ULA có kích thước nhỏ hơn (2.292 câu) nên được chọn làm tập đánh giá.
- Mục đích của thực nghiệm này là nhằm tìm ra 2 đặc trưng và các tham số phân lớp SVM tốt nhất cho phân lớp tính chủ quan/tính phân cực cảm nghĩ.
- Hai đặc trưng cho độ chính xác cao nhất sẽ được chọn làm 2 khung nhìn cố định, các tham số phân lớp SVM cho độ chính xác cao nhất cũng sẽ được thiết lập cho các bộ phân lớp sau này..
- Cố định các tham số phân lớp SVM, tham số Co-training, hai khung nhìn và tập đánh giá, thay đổi số lượng từ khóa câu được chọn vào tập huấn luyện có nhãn..
- Cố định các tham số phân lớp SVM, tham số Co-training, hai khung nhìn.
- Các mục từ 3.2 đến 3.6 trình bày chi tiết các bước khai phá dữ liệu đối với mỗi mục tiêu (thực nghiệm) cùng với đó là cách trích chọn đặc trưng, cách xác định nhãn từ sơ đồ đánh dấu (annotation scheme) của kho dữ liệu MPQA2.0.
- Ngoài ra, thư viện LibSVM được dùng như là bộ phân lớp cơ sở cho hai cách tiếp.
- Thực nghiệm 1.
- Theo cách chọn dữ liệu cho Thực nghiệm 1 (Bảng 3.10), sau khi tiến hành huấn luyện và dự đoán, ta có các kết quả về độ chính xác cho phân lớp tính chủ quan và phân lớp tính phân cực cảm nghĩ lần lượt như trong Bảng 4.1 và Bảng 4.2..
- Kết quả của Thực nghiệm 1 theo nhãn tính chủ quan Độ chính xác Phân lớp tính chủ quan.
- Kết quả của Thực nghiệm 1 theo nhãn tính phân cực cảm nghĩ Độ chính xác Phân lớp tính phân cực.
- Căn cứ vào giá trị max này (được in đậm và nghiêng), ta có thể xác định được đặc trưng và tham số phân lớp SVM (cột “S.T”) tốt nhất.
- Theo đó, 2 đặc trưng tốt nhất và tham số phân lớp SVM tối ưu (S.T) cho phân lớp tính chủ quan/tính phân cực cảm nghĩ được chọn như bảng 4.3 dưới đây..
- Các đặc trưng, thông số tốt nhất cho từng bài toán phân lớp con..
- Phân lớp Tính chủ.
- Phân lớp Tính phân.
- Thực nghiệm 2.
- Các đặc trưng, tham số phân lớp SVM được thiết lập theo Bảng 4.3.
- Tham số Co-training với phân lớp tính chủ quan (nhị phân) được thiết lập theo tỉ lệ mẫu dương/mẫu âm trong tập huấn luyện ORI: p=15, n=15.
- Với phân lớp tính phân cực cảm nghĩ (3 lớp), tham số được thiết lập: p=7, n=3, neu=20..
- Với cách chọn dữ liệu như trong Hình 3.11, ta có độ chính xác sau khi đánh giá như trong Bảng 4.5 và Bảng 4.6..
- Phân lớp tính chủ quan.
- Độ chính xác phân lớp tính chủ quan được cải thiện nhiều nhất (ở mức 0,96% và 1,31%, được in đậm và nghiêng) khi chọn những câu có từ khóa tối thiểu bằng 5 vào tập huấn luyện có nhãn..
- Phân lớp tính Phân cực cảm nghĩ.
- Độ chính xác phân lớp tính phân cực cảm nghĩ được cải thiện nhiều nhất, được in đậm và nghiêng, khi chọn những câu có từ khóa tối thiểu bằng 6 vào tập huấn luyện có nhãn..
- Tóm lại, khi lựa chọn tập dữ liệu có nhãn cho Co-training với tập dữ liệu ORI thì nên chọn những câu có số từ khóa tối thiểu bằng 5 hoặc 6.
- Thực nghiệm 3.
- Tham số Co-training được thiết lập (p=15,n=15) cho phân lớp tính chủ quan và (p=7, n=3, neu=20) cho phân lớp tính phân cực cảm nghĩ..
- Phân lớp tính phân cực.
- Từ các kết quả trên, ta thấy phân lớp tính phân cực được cải thiện nhiều nhất khi thực hiện với Co-training khi chọn tỉ lệ L, U là 20%, 60%.
- Với phân lớp tính phân cực cảm nghĩ thì tỉ lệ tốt nhất của L, U là 10%, 70%..
- Luận văn đã hiện thực 1 hệ thống khai phá dữ liệu cụ thể trên bài toán khai phá quan điểm với 2 giai đoạn xây dựng mô hình và đánh giá mô hình.
- Thông qua các thực nghiệm cụ thể, đã đánh giá ảnh hưởng của từng đặc trưng, tham số phân lớp SVM đến chất lượng phân lớp (Thực nghiệm 1).
- Qua đó, tìm ra 2 đặc trưng tốt nhất, tham số phân lớp SVM tốt nhất cho từng bài toán phân lớp con với cách chọn dữ liệu cụ thể..
- Thực nghiệm với nhiều kho dữ liệu khác để so sánh với kết quả thực hiện trên kho MPQA2.0 từ đó mới đánh giá chính xác hơn về mô hình..
- Hiện tại các thao tác và kết quả khai phá dữ liệu được thực hiện trên dữ liệu tiếng Anh, từ dữ liệu ban đầu là kho MPQA2.0 cho đến các mô hình xây dựng được, nên không ứng dụng.
- được cho dữ liệu tiếng Việt.
- Để ứng dụng được cho dữ liệu tiếng Việt, có 2 hướng cần xem xét: (1) nếu dùng mô hình được huấn luyện trên tập dữ liệu tiếng Anh thì dữ liệu tiếng Việt cần được dịch từ tiếng Việt sang tiếng Anh.
- (2) xây dựng kho dữ liệu tiếng Việt phục vụ huấn luyện và đánh giá trong bài toán khai phá quan điểm..
- Hà Quang Thụy (Chủ biên), Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình Khai phá Dữ liệu Web, Nhà xuất bản Giáo Dục Việt Nam, tr .
- Vũ Thanh Nguyên, Trang Nhật Quang (2009), Ứng dụng thuật toán phân lớp rút trích thông tin văn bản FSVM trên Internet