« Home « Kết quả tìm kiếm

KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN


Tóm tắt Xem thử

- KẾT HỢP NGỮ NGHĨA VỚI MÔ HÌNH TÚI TỪ.
- Phân lớp văn bản ngắn, mô hình túi từ, ngữ nghĩa, k láng giềng.
- Trong bài này, chúng tôi giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hình túi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềng trong phân lớp văn bản ngắn.
- Mô hình túi từ là mô hình biểu diễn văn bản như véc tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đề phân lớp văn bản.
- Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớp dương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn.
- Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của k láng giềng.
- trong giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trong phân lớp văn bản ngắn..
- Phân lớp văn bản (Manning, 2008), (Sebastiani, 99) là gán nhãn tự động cho từng văn bản theo chủ đề đã được định nghĩa trước dựa vào nội dung của văn bản.
- Phân lớp văn bản sử dụng phổ biến trong ứng dụng như: gán nhãn tự động một bản tin, phân lớp ý kiến người dùng trên các mạng xã hội, trả lời.
- Trong bài báo này, chúng tôi xét đến vấn đề phân lớp văn bản ngắn, thường thấy ở các ứng dụng như phân lớp ý kiến trên mạng xã hội twitter (Liu, 2012), kiểm tra các câu hỏi / trả lời từ các.
- Các văn bản này thường rất ngắn (chứa tối đa khoảng 20 từ), mang rất ít thông tin để cho phép thực hiện việc phân lớp bởi các mô hình máy học.
- Hơn nữa, mô hình túi từ lại không quan tâm đến sự đồng ngữ nghĩa của các từ, tìm hai văn bản tương tự nhau trong giải thuật phân lớp kNN cần phải so khớp từ vựng.
- Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của kNN trong phân lớp văn bản ngắn.
- Mô hình ngữ nghĩa dựa trên tự điển đồng nghĩa WordNet (Fellbaum, 1998), phân tích ngữ nghĩa tiềm ẩn LSA (Dumais, 2004) và chủ đề tiềm ẩn LDA (Blei et al., 2003).
- trong khi giảm chưa đến 1% dự đoán lớp âm của giải thuật kNN trong phân lớp văn bản ngắn..
- Phần tiếp theo của bài viết được trình bày như sau: phần 2 trình bày ngắn gọn về phân lớp văn bản.
- với mô hình túi từ và giải thuật kNN, phần 3 trình bày các phương pháp kết hợp ngữ nghĩa với mô hình túi để cải tiến giải thuật phân lớp kNN.
- Phần 4 trình bày các kết quả thực nghiệm, tiếp theo sau đó là thảo luận về các nghiên cứu có liên quan đến phân lớp văn bản trước khi kết luận và hướng phát triển..
- 2 PHÂN LỚP VĂN BẢN VỚI MÔ HÌNH TÚI TỪ VÀ GIẢI THUẬT KNN.
- Phương pháp phân lớp văn bản thường dựa trên mô hình thống kê từ và các giải thuật học tự động (Manning, 2008), (Sebastiani, 99)..
- 2.1 Mô hình túi từ.
- Do dữ liệu văn bản ở đầu vào ở dạng không cấu trúc, trong khi các giải thuật máy học ở giai đoạn tiếp theo sau thường chỉ có thể xử lý được dữ liệu dạng cấu trúc bảng (mỗi dòng là một phần tử dữ liệu, cột là chiều hay thuộc tính).
- Để giải quyết vấn đề này, mô hình túi từ (Harris, 1954), (Salton et al., 1975) cho phép chúng ta biểu diễn tập dữ liệu văn bản về cấu trúc bảng..
- Bảng 1: Ví dụ về tập dữ liệu văn bản.
- Bước tiền xử lý này bao gồm việc phân tích từ vựng và tách các từ trong nội dung của tập văn bản, sau đó chọn tập hợp các từ có ý nghĩa quan trọng dùng để phân lớp, biểu diễn dữ liệu văn bản về dạng bảng để từ đó các giải thuật máy học có thể học để phân lớp.
- Một văn bản được biểu diễn dạng véc tơ (có n thành phần, chiều) mà giá trị.
- thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản.
- Nếu xét tập T gồm m văn bản và tự điển có n từ vựng, thì T có thể được biểu diễn thành bảng D kích thước m×n, dòng thứ i của bảng là véc tơ biểu diễn văn bản thứ i tương ứng..
- Xem ví dụ tập dữ liệu văn bản trong Bảng 1, sau khi tiền xử lý biểu diễn với mô hình túi từ thu được bảng dữ liệu D có cấu trúc như Bảng 2, từ bảng này giải thuật máy học như kNN có thể xử lý vấn đề phân lớp..
- Bảng 2: Biểu diễn tập dữ liệu văn bản bằng mô hình túi từ.
- được sử dụng trong các vấn đề tìm kiếm văn bản, phân lớp văn bản (Manning, 2008).
- Bảng 3: Ví dụ về tập dữ liệu 2 văn bản d1, d2 và văn bản x cần phân lớp.
- Tuy nhiên, nếu sử dụng mô hình túi từ như trên, thì khi tìm k láng giềng của kNN lại không thể xét đến sự tương đồng về mặt ngữ nghĩa do mô hình túi từ không quan tâm đến sự đồng nghĩa của các từ trong văn bản (mà cần so khớp chính xác từ).
- Để thấy rõ điều này, cần xem xét ví dụ với tập dữ liệu có 3 văn bản ngắn (2 văn bản d1, d2 được gán sẵn lớp và văn bản x cần phân lớp) như sau Bảng 3..
- Bảng 4: Mô hình túi từ của tập dữ liệu 2 văn bản d1, d2 và văn bản x cần phân lớp.
- Bảng 4 là mô hình túi từ biểu diễn 3 văn bảng trên.
- Để phân lớp x thuộc vào lớp Dương hay Âm, kNN tìm 1 láng giềng của x bằng cách tính khoảng cách (chẳng hạn Manhattan) từ x đến văn bản d1 và d2, sau đó láng giềng là khoảng cách nhỏ nhất.
- 3 TÍCH HỢP NGỮ NGHĨA VÀO MÔ HÌNH TÚI TỪ.
- Để khắc phục nhược điểm về việc bỏ qua sự đồng nghĩa của từ trong mô hình túi từ, cần thiết phải tích hợp thêm ngữ nghĩa để cải thiện hiệu quả.
- Một là sử dụng tự điển đồng nghĩa WordNet (Fellbaum, 1998) kết hợp với mô hình túi từ.
- 3.1 Mô hình ngữ nghĩa sử dụng tự điển WordNet.
- Hình 2: Mô hình ngữ nghĩa BoW-WordNet và kNN cho phân lớp văn bản Ma trận đồng nghĩa S được xây dựng dựa vào.
- Lúc này giải thuật kNN xử lý bảng Sem để phân lớp dữ liệu thay vì là bảng D của mô hình túi từ thường thấy.
- Hình 2 mô tả mô hình ngữ nghĩa BoW-WordNet và kNN cho phân lớp văn bản..
- S support Vector machine linux Kernel support vector machine linux kernel Tiếp đến, nhân bảng dữ liệu 4 của mô hình túi từ với ma trận đồng nghĩa S ở Bảng 5, thu được bảng dữ liệu Sem như Bảng 6.
- thay bằng các giá trị lớn hơn 0 trong Bảng 6 do từ tương ứng có quan hệ ngữ nghĩa với các từ khác xuất hiện trong văn bản..
- Bảng 6: Mô hình túi từ đã tích hợp ngữ nghĩa Sem của tập dữ liệu {d1, d2 và x}.
- x Để phân lớp văn bản x sử dụng bảng 6 (bảng dữ liệu đã tích hợp ngữ nghĩa Sem), kNN tìm 1 láng giềng của x bằng cách tính khoảng cách Manhattan từ x đến văn bản d1 và d2.
- Văn bản x được gán lớp là Dương (lớp của d1).
- Kết quả này chứng tỏ rằng tích hợp ngữ nghĩa vào mô hình túi từ giúp kNN phân lớp hiệu quả văn bản hơn..
- LSA thực hiện phân tích các mối quan hệ giữa tập các văn bản và các từ vựng có trong văn bản.
- Giải thuật kNN sử dụng bảng R (ngữ nghĩa tiềm ẩn) để thực hiện phân lớp văn bản.
- Mô hình được mô tả như Hình 3..
- Hình 3: Mô hình ngữ nghĩa tiềm ẩn BoW-LSA/LDA và kNN cho phân lớp văn bản 3.3 Chủ đề ẩn (LDA).
- Trong khi LSA chỉ có thể rút trích ngữ nghĩa đồng nghĩa tiềm ẩn của các từ trong tập văn bản thì.
- Để giải quyết được cả vấn đề trên, (Blei et al., 2003) đã đề xuất mô hình chủ đề.
- tiềm ẩn LDA cho phép khám phá ngữ nghĩa tiềm ẩn và cả sự đa nghĩa của từ trong tập văn bản.
- LDA là một mô hình sinh xác suất cho tập dữ liệu rời rạc (văn bản).
- LDA về bản chất được xem là mô hình Bayes 3 cấp độ: tập văn bản, văn bản và từ.
- trong đó mỗi văn bản của tập hợp m văn bản được mô hình như một mô hình hỗn hợp của k chủ đề ẩn, mỗi chủ đề ẩn là phân phối xác suất đa thức (multinomial distribution) của n từ.
- Mô hình LDA sinh từ và văn bản theo quy tắc như sau:.
- Ứng với mỗi từ của n j từ vựng của văn bản d j.
- Một cách trực quan, có thể diễn giải về tham số ϕk để chỉ tầm quan trọng của những từ trong chủ đề k và tham số θ j chỉ ra những chủ đề khám phá trong văn bản d j.
- (m văn bản, n từ vựng) thu được ở mô hình túi từ, LDA rút trích k chủ đề tiềm ẩn trong tập m văn bản, tạo bảng dữ liệu mới R kích thước m × k .
- Phần thực nghiệm nhằm đánh giá hiệu quả của tiếp cận đề xuất sử dụng ngữ nghĩa kết hợp với mô hình túi từ để cải tiến hiệu quả dự đoán lớp dương của giải thuật kNN trong phân lớp văn bản ngắn..
- Bảng 7: Ví dụ về tập dữ liệu văn bản gồm các câu hỏi / trả lời từ các cuộc phỏng vấn trong ứng dụng hoạch định nguồn nhân lực doanh nghiệp.
- Chúng tôi sử dụng tập dữ liệu văn bản ngắn được nghiên cứu trong (Do et al., 2014).
- Đây là tập dữ liệu văn bản gồm các câu hỏi / trả lời từ các cuộc phỏng vấn trong ứng dụng hoạch định nguồn nhân lực doanh nghiệp.
- Các văn bản ngắn này thường rất ngắn (chứa khoảng 20 từ), như ví dụ trong Bảng 7.
- Chúng tôi sử dụng thư viện Libbow của (McCallum, 1998) để thực hiện bước tiền xử lý dữ liệu văn bản (loại bỏ từ ít ý nghĩa stop-words và quy về từ gốc), xây dựng mô hình túi từ với 500 từ..
- kNN phân lớp bảng dữ liệu thu được từ mô hình túi từ được ký hiệu là kNN..
- Riêng phần tích hợp ngữ nghĩa WordNet với mô hình túi từ, chúng tôi sử dụng thư viện cung cấp bởi (Seco et al., 2004), kNN phân lớp trên bảng dữ liệu này được ký hiệu là WordNet-kNN..
- Pos, có thể thấy rằng tất cả các mô hình sử dụng.
- ngữ nghĩa WordNet, LSA, LDA đều cải thiện kết quả dự đoán lớp dương trên 8% so với sử dụng kNN trực tiếp trên mô hình túi từ.
- Tuy nhiên, chỉ có WordNet và LDA vẫn còn duy trì kết quả dự đoán lớp âm trong khi LSA làm giảm dự đoán lớp âm đến 2% so với mô hình túi từ gốc.
- Hình 4: Kết quả phân lớp tập văn bản ngắn Kết quả thu được từ thực nghiệm này cho phép.
- chúng tôi tin rằng tích hợp ngữ nghĩa vào mô hình túi từ WordNet-kNN và LDA-kNN cải thiện được đáng kể hiệu quả dự đoán lớp dương và giảm rất ít kết quả dự đoán lớp âm của giải thuật kNN trong phân lớp văn bản ngắn..
- Các tiếp cận phân lớp văn bản được nghiên cứu trước đây dựa trên mô hình ngữ nghĩa hoặc máy học (Manning, 2008), (Sebastiani, 1999).
- Phương pháp phân lớp văn bản dựa trên mô hình thống kê từ và các giải thuật học tự động..
- Dữ liệu văn bản có độ dài khác nhau được biểu.
- diễn dưới dạng véc tơ tần số xuất hiện của từ trong văn bản (mô hình túi từ (Harris, 1954), (Salton et al., 1975.
- đây là mô hình biểu diễn phổ biến và được dùng trong hầu hết các nghiên cứu về phân lớp văn bản và tìm kiếm thông tin, (Manning, 2008), (Sebastiani, 1999), (Lewis &.
- Vì vậy, tập dữ liệu văn bản được chuyển về dạng một bảng có số cột (chiều, từ vựng) rất lớn..
- Bước tiếp theo là huấn luyện mô hình học tự động từ bảng dữ liệu này.
- Các mô hình máy học thường sử dụng như giải thuật k láng giềng (kNN (Fix &.
- giải thuật tập hợp mô hình bao gồm Boosting (Freund &.
- Phạm, 2013), đề xuất giải thuật tập hợp mô hình của máy học SVM, Bayes thơ ngây, cây xiên ngẫu nhiên, cho phân lớp hiệu quả dữ liệu văn bản biểu diễn trực tiếp từ mô hình túi từ có số chiều lớn..
- Ngoài ra, chúng tôi cũng đã đề xuất tích hợp ngữ nghĩa bằng tự điển WordNet (Fellbaum, 1998), cho phép cải thiện kết quả hiển thị và tìm kiếm chuyên gia (Nguyen et al., 2009) và tìm kiếm văn bản (Bùi et al., 2006)..
- Tuy nhiên, nghiên cứu của bài viết được đặt trong ngữ cảnh phân lớp văn bản ngắn (chứa rất ít từ) sử dụng mô hình túi từ và máy học dựa trên khoảng cách đơn giản như kNN.
- (Song et al., 2014) nêu bật vấn đề khó khăn khi xử lý văn bản ngắn và các tiếp cận máy học như chủ đề ẩn, máy học SVM, kNN, NB.
- Mục tiêu không nhằm so sánh với các giải thuật máy học phức tạp khác mà ý tưởng chính là cải tiến tiếp cận thường thấy trong phân lớp văn bản và tìm kiếm thông tin có sử dụng mô hình túi từ biểu diễn văn bản và giải thuật dựa trên cách tính khoảng cách luôn bỏ qua sự đồng nghĩa của từ..
- 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi vừa trình bày tiếp cận tích hợp ngữ nghĩa nhằm nâng cao hiệu quả phân lớp văn bản ngắn của giải thuật kNN.
- Văn bản ngắn mang rất ít thông tin để cho phép thực hiện việc phân lớp bởi kNN.
- Trong khi mô hình túi từ để biểu diễn văn bản hiện nay lại không quan tâm đến sự đồng ngữ nghĩa của các từ, hai văn bản tương tự nhau trong giải thuật kNN cần phải so khớp từ vựng.
- Để cải thiện kết quả dự đoán lớp dương của kNN trong phân lớp văn bản ngắn, chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ, sử dụng tự điển đồng nghĩa WordNet, ngữ nghĩa tiềm ẩn LSA và chủ đề ẩn LDA.
- Kết quả thực nghiệm với tập dữ liệu thực tiễn văn bản ngắn cho thấy rằng các phương pháp của chúng tôi đề xuất cải thiện dự đoán lớp dương hơn 8% trong khi giảm chưa đến 1% dự đoán lớp âm của giải thuật kNN trong phân lớp văn bản ngắn..
- Đỗ, T-N., Phạm, N-K.: Phân loại văn bản:.
- Mô hình túi từ và tập hợp mô hình máy học tự động.
- Phạm, N-K, Đỗ, T-N, Poulet, F.: Phân loại văn bản với giải thuật Boosting PSVM.
- Trần, C.Đ và Phạm N.K.: Phân loại văn bản với máy học véc tơ hỗ trợ và cây quyết định