« Home « Kết quả tìm kiếm

Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng phương pháp học máy không có hướng dẫn


Tóm tắt Xem thử

- Nghiên cứu gán nhãn từ loại cho văn bản tiếng Việt bằng phương pháp học máy không có.
- Trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận, trình bày hiện trạng cùng các phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt, khó khăn chưa khắc phục được.
- Trình bày các kiến thức toán học, các mô hình học máy được sử dụng trong luận văn.
- Trình bày một số phương pháp học máy không có hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này..
- Gán nhãn từ loại.
- Văn bản tiếng Việt.
- Một trong các vấn đề nền tảng của ngôn ngữ tự nhiên là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ.
- Mỗi từ loại tương ứng với một lớp từ giữ một vai trò ngữ pháp nhất định.
- Nói chung, mỗi từ trong một ngôn ngữ có thể gắn với nhiều từ loại, và việc tự động “hiểu” đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không.
- Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó.
- Các công cụ gán nhãn (hay chú thích) từ loại cho các từ trong một văn bản có thể thay đổi tuỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể..
- Xác định từ loại chính xác cho các từ trong văn bản là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên.
- Công cụ gán nhãn từ loại có thể được ứng dụng rộng rãi trong.
- Vấn đề gán nhãn từ loại của nhiều ngôn ngữ đã được giải quyết tốt bằng phương pháp học máy có hướng dẫn, nghĩa là phải xây dựng một kho ngữ liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại.
- Hiện nay, bài toán gán nhãn từ loại tiếng Việt cũng đã được một số nhóm nghiên cứu và giải giải quyết cũng chủ yếu bằng phương pháp học máy có hướng dẫn, nhưng việc xây dựng tập huấn luyện còn gặp nhiều khó khăn vì bản thân các nhà ngôn ngữ học vẫn còn chưa thống nhất về tập từ loại tiếng Việt nên các nhóm tự định nghĩa tập nhãn khác nhau, và các nhóm cũng tự xây dựng kho dữ liệu đã gán nhãn và xây dựng tập luật khác nhau.
- Một cách tiếp cận khác cho bài toán gán nhãn từ loại là sử dụng phương pháp học máy không có hướng dẫn để một mặt giải quyết vấn đề xác định bộ nhãn từ loại, mặt khác tiết kiệm công sức xây dựng tập huấn luyện.
- Đề tài này nghiên cứu một số phương pháp gán nhãn từ loại không có hướng dẫn, trên cơ sở đó đưa ra một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt bằng cách tiếp cận này..
- Trong chương này sẽ trình bày tổng quan về bài toán gán nhãn từ loại, các tiếp cận để giải quyết bài toán gán nhãn từ loại, so sánh các tiếp cận.
- Chương này cũng trình bày hiện trạng cùng các phương pháp đã được dùng để giải quyết bài toán gán nhãn từ loại cho tiếng Việt, khó khăn chưa khắc phục được..
- Chương này sẽ trình bày các kiến thức toán học, các mô hình học máy được sử dụng trong luận văn..
- Chƣơng III: Cách tiếp cận không có hƣớng dẫn cho bài toán gán nhãn từ loại Chương này sẽ trình bày một số phương pháp học máy không có hướng dẫn cho bài toán gán nhãn từ loại, để từ đó có thể xây dựng một quy trình giải quyết bài toán gán nhãn từ loại tiếng Việt theo cách tiếp cận này..
- Chƣơng 1 - TỔNG QUAN 1.1 Bài toán gán nhãn từ loại.
- Gán nhãn từ loại là việc xác định các chức năng ngữ pháp của từ trong câu hay là quá trình gán từng từ trong đoạn văn bản với các đánh dấu từ loại hoặc cấu trúc ngữ pháp.
- 1.2 Tổng quan về cách tiếp cận giải bài toán 1.2.1 Quá trình gán nhãn từ loại.
- Gán nhãn từ loại là một quá trình gồm 3 bước xử lý:.
- Bước 2: Gán nhãn tiên nghiệm, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có..
- Bước 3: Quyết định kết quả gán nhãn 1.2.2 Ngữ liệu.
- Để thực hiện gán nhãn từ loại ta phải có kho ngữ liệu[2], chúng có thể là:.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố..
- Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê.
- 1.2.3 Các tiếp cận giải bài toán.
- Chúng ta có hai tiếp cận chính cho gán nhãn từ loại tự động:[19].
- Bộ gán nhãn có hướng dẫn có đặc thù là dựa trên kho ngữ liệu đã được gán nhãn cho việc tạo ra các công cụ được sử dụng cho quá trình gán nhãn.
- Các mô hình không hướng dẫn không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập.
- nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật..
- 1.2.5 Gán nhãn dựa trên luật.
- Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các từ, sử dụng các luật làm thành một nghĩa.
- Các tiếp cận gán nhãn dựa trên luật sử dụng thông tin ngữ cảnh để gán các nhãn cho các từ chưa biết hoặc các từ nhập nhằng.
- 1.2.6 Gán nhãn thống kê.
- Bộ gán nhãn thống kê đơn giản nhất giải quyết nhập nhằng các từ chỉ đặt cơ sở vào xác suất mà một từ xuất hiện với một nhãn đặc biệt.
- Có vài giải pháp tiềm năng cho vấn đề này: Một trong những giải pháp sử dụng thông tin hình thái.
- Trong trường hợp này, bộ gán nhãn tính toán xác suất mà một hậu tố trên một từ chưa biết xuất hiện với một nhãn đặc biệt.
- cho các từ chưa biết và để giải quyết nhập nhằng sử dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram trong câu hỏi..
- 1.3 Bài toán gán nhãn từ loại tiếng Việt.
- Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại, có thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại tiếng Việt:.
- Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại.
- Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ.
- loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt..
- Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng được quan tâm nghiên cứu.
- Tuy nhiên đây vẫn là hướng nghiên cứu đầy tiềm năng và cũng đầy thử thách, cùng với đó là việc các nghiên cứu đã có hầu hết vẫn còn mang tính cá thể, chưa có được sự đối chiếu so sánh khách quan, và sự thống nhất về bộ nhãn giữa các nhà ngôn ngữ, đồng thời cũng chưa xây dựng được bộ nhãn đủ lớn để bài toán gán nhãn tiếng Việt có thể đạt độ chính xác rất cao.
- Thuật toán EM (Expectation Maximization) nhằm tìm ra sự ước lượng về khả năng lớn nhất của các tham số trong mô hình xác suất (các mô hình phụ thuộc vào các biến ẩn chưa được quan sát), nó được xem như thuật toán dựa trên mô hình..
- 2.3 Mô hình Markov ẩn.
- 2.3.1 Ba bài toán cơ bản của HMM 2.3.1.1 Bài toán 1.
- Xác suất P(O/λ).
- 2.3.1.2 Bài toán 2.
- 2.3.1.3 Bài toán 3.
- 2.2.2 Mô hình n-gram.
- Mô hình n-gram là một mô hình sử dụng n-1 từ đằng trước đó để dự đoán từ tiếp theo 2.4 Phân cụm.
- Thứ ba, đó là một khi chúng ta đã xác định sự chênh lệch lớn nhất ở đâu, SVD có thể tìm thấy xấp xỉ tốt nhất của các điểm dữ liệu ban đầu bằng cách sử dụng kích thước ít hơn.
- Chƣơng 3 - MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN KHÔNG CÓ HƢỚNG DẪN CHO GÁN NHÃN TỪ LOẠI.
- 3.1 Gán nhãn sử dụng kỹ thuật Cực đại hóa kỳ vọng.
- Bài toán gán nhãn từ loại được mô hình hóa sử dụng mô hình Markov ẩn (HMM) như sau:.
- Các nhãn từ loại được coi là các trạng thái ẩn và các từ của văn bản như là đầu ra (trạng thái quan sát được)..
- 3.1.1 Huấn luyện mô hình Trigram.
- Nếu chúng ta có một lượng văn bản đã gán nhãn có sẵn, chúng ta có thể tính toán số lần N(w,t) một từ w được đưa ra xuất hiện với nhãn t và số lần N(t 1, t 2 ,t 3 ) chuỗi (t 1, t 2 ,t 3 ) xuất hiện trong văn bản này.
- Sử dụng một mô hình trigram M, có thể tính toán xác suất của bất kỳ chuỗi các từ W theo mô hình này: p ( W ) p ( W , T.
- Huấn luyện ML tìm thấy mô hình M mà cực đại hoá xác suất của văn bản huấn luyện:.
- Đây là vấn đề của huấn luyện một mô hình Markov ẩn..
- sử dụng dữ liệu Penn treebank gồm có 42186 đã được gán nhãn một cách thủ công (khoảng 1 triệu từ)..
- Sử dụng 159 các nhãn khác nhau để gán nhãn cho Penn treebank..
- 3.2 Gán nhãn từ loại bằng kỹ thuật phân cụm.
- những thuộc tính phân phối và các từ tương tự xuất hiện trong các ngữ cảnh tương tự được sử dụng cho việc tính toán các véc tơ ngữ cảnh của mỗi từ để gom cụm các từ với nhau trong các nhóm.
- Các nhóm mà có thể được gán nhãn từ loại hoặc các lớp từ như các nhóm.
- Sử dụng kỹ thuật phân cụm để xây dựng các nhãn từ loại trên dữ liệu chưa gán nhãn là một đặc trưng phân biệt của phương pháp gán nhãn từ loại phân phối..
- 3.2.1 Suy luận gán nhãn.
- 3.2.2 Suy luận dựa trên từ loại.
- Sự ghép nối của hai véc tơ ngữ cảnh trái và phải có thể đại diện cho phân phối của một từ.
- 3.2.4 Suy luận dựa trên loại từ và ngữ cảnh, sử dụng các véc tơ ngữ cảnh trái và phải tổng quát hoá.
- Kết quả gãn nhãn đã đạt được khi sử dụng kỹ thuật phân cụm cho thấy rằng kết quả gán nhãn khi phân cụm dựa vào từ loại và ngữ cảnh đạt kết quả tốt hơn dựa vào chỉ từ loại và kém hơn khi phân cụm dựa vào các véc tơ ngữ cảnh được tổng quát hóa..
- 3.3 Đề xuất phương pháp không hướng dẫn cho bài toán gán nhãn từ loại tiếng Việt Vậy thứ tự để thực hiện gán nhãn sẽ như sau:.
- Sử dụng giải pháp SVD để giảm số chiều ma trận C.
- Tính độ đo tương tự của các từ dựa trên ma trận C đã giảm số chiều sử dụng độ đo cosin.
- Phân cụm dựa vào độ đo đã tính ở trên sử dụng thuật toán phân cụm mờ.
- Sử dụng tập nhãn này để xây dựng một kho ngữ liệu gán nhãn bằng tay.
- Để thực hiện gán nhãn ta sẽ sử dụng mô hình Markov ẩn, và theo nghiên cứu ở trên gán nhãn sử dụng mô hình Markov đạt độ chính xác cao khi kho ngữ liệu gán nhãn bằng tay nhỏ thì sẽ sử dụng huấn luyện ML để thực hiện..
- Tổng quan về bài toán gán nhãn từ loại: luận văn đã trình bày được bài toán gán nhãn từ loại, trình bày và so sánh các hướng tiếp cận không có hướng dẫn và có hướng dẫn để giải quyết bài toán gán nhãn từ loại, để làm cơ sở nghiên cứu những tiếp cận đã được sử dụng để giải bài toán gán nhãn từ loại tiếng Anh, cũng như tiếng Việt trong thời gian vừa qua..
- Tìm hiểu cơ sở toán học sử dụng trong các phƣơng pháp mà luận văn nghiên cứu đƣợc và trình bày: luận văn đã trình bày được các kiến thức cơ bản về xác suất thống kê, các mô hình như mô hình Markov ẩn cùng các bài toán của mô hình và các thuật toán được dùng để giải quyết các bài toán đó, ngoài ra luận văn còn trình bày những kiến thức cơ bản về kỹ thuật phân cụm như là định nghĩa các cách đo độ tương tự cho từng loại đối tượng khác nhau, phương pháp phân tích giá trị kỳ dị được sử dụng trong các tiếp cận giải bài toán gán nhãn từ loại cũng được trình bày..
- Từ những kiến thức này để chúng ta có thể hiểu được các phương pháp được sử dụng để giải quyết bài toán..
- Tìm hiểu các phƣơng pháp không có hƣớng dẫn cho bài toán gán nhãn từ loại tiếng Anh: Luận văn trình bày được hai phương pháp không có hướng dẫn để giải quyết bài toán gán nhãn từ loại tiếng Anh.
- Đó là phương pháp sử dụng kỹ thuật cực đại hóa kỳ vọng và kỹ thuật phân cụm.
- Phân tích được ưu nhược điểm của từng phương pháp để từ đó có thể tìm ra được phương pháp có thể áp dụng cho bài toán gán nhãn từ loại tiếng Việt..
- Tìm hiều bài toán gán nhãn từ loại tiếng Việt: trình bày được các phương pháp đã được sử dụng trong việc giải quyết bài toán gán nhãn từ loại tiếng Việt, tìm hiểu được những ưu điểm và những hạn chế chưa giải quyết được trong bài toán gán.
- nhãn từ loại tiếng Việt, đồng thời sử dụng những kiến thức về những phương pháp đã sử dụng để đưa ra đề xuất giải quyết những hạn chế của bài toán gán nhãn tiếng Việt..
- Mặc dù luận văn đã tìm hiểu được một số phương pháp học máy không có hướng dẫn đã được sử dụng cho bài toán gán nhãn từ loại, đã tìm hiểu được những mặt còn hạn chế của bài toán gán nhãn từ loại tiếng Việt và đưa ra được đề xuất để khắc phục hạn chế đó nhưng vẫn chưa thực hiện được thực nghiệm cụ thể cho đề xuất đó, đó là hạn chế của luận văn và đó cũng có thể coi là một trong hướng phát triển của luận văn là thực hiện một thực nghiệm dựa vào đề xuất để sử dụng kết quả đạt được góp phần vào việc giải quyết hạn chế của bài toán gán nhãn từ loại tiếng Việt..
- References Tiếng Việt.
- Gán nhãn Từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất, Tạp chí phát triển KH&CN, Tập 9, số 2 năm 2006.
- “Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt”, Báo cáo hội thảo ICT.rda.
- Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy.
- Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt.
- So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt