« Home « Kết quả tìm kiếm

SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT


Tóm tắt Xem thử

- SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI.
- Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên.
- Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957).
- KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI...3.
- Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ...3.
- Khái niệm về bài toán gán nhãn từ loại ...3.
- Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP...4.
- Các khó khăn của bài toán gán nhãn từ loại...6.
- Tập nhãn từ loại...7.
- Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới...7.
- Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam...10.
- CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI ...13.
- BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT ...25.
- Thuật toán gán nhãn cho dữ liệu dạng chuỗi.
- Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại ...36.
- THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ ...39.
- Dữ liệu thực nghiệm và tập nhãn từ loại...40.
- Hệ thống gán nhãn từ loại cho tiếng Việt ...45.
- Gán nhãn từ loại dựa vào thông tin về từ...47.
- Gán nhãn từ loại dựa vào thông tin hình vị ...47.
- Một số tập nhãn từ loại cho Tiếng Anh ...8.
- Một mô hình gán nhãn từ loại tiếng Việt...46.
- Tập nhãn từ loại Penn Treebank ...8.
- Tập nhãn từ loại VnPOS cho tiếng Việt...42.
- 4 Natural Language Processing NLP Xử lý ngôn ngữ tự nhiên 5 Part of speech tagging POS tagging Gán nhãn từ loại.
- Gán nhãn từ loại cho một văn bản tức là xác định từ loại chính xác cho các từ trong văn bản đó.
- Chương 1: Khái quát về bài toán gán nhãn từ loại.
- Chương 1 đưa ra khái niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên..
- Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại.
- Trình bày một số hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại như phương pháp thủ công, các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai.
- này cũng giới thiệu một số nghiên cứu có liên quan đến bài toán gán nhãn từ loại cho tiếng Việt trong những năm gần đây..
- Ba mô hình học máy áp dụng cho bài toán gán nhãn từ loại tiếng Việt.
- Chương 4: Thực nghiệm áp dụng ba mô hình học máy cho bài toán gán nhãn từ loại tiếng Việt và đánh giá kết quả.
- KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI.
- Chương 1 giới thiệu về bài toán gán nhãn từ loại cùng với vai trò, ứng dụng của nó trong các hệ thống xử lý ngôn ngữ tự nhiên.
- Cùng với đó, chương này cũng phân tích những khó khăn mà bài toán gán nhãn từ loại cần phải giải quyết và vấn đề xây dựng tập nhãn từ loại..
- Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên.
- Khái niệm về bài toán gán nhãn từ loại.
- Quá trình gán nhãn từ loại thường được chia làm 3 bước [2, 3, 4]:.
- Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP.
- Hình 1 ở trên cho ta mô tả trực quan về vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên..
- Có thể điểm qua một số ứng dụng tiêu biểu của bài toán gán nhãn từ loại như dưới đây [14]:.
- Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ loại là trong hệ thống dịch máy.
- Các khó khăn của bài toán gán nhãn từ loại.
- Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại như sau:.
- Tập nhãn từ loại.
- Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các ngôn ngữ trên thế giới.
- Một số tập nhãn từ loại cho Tiếng Anh Có thể kể đến một số tập nhãn từ loại điển hình như:.
- Các nhãn của tập nhãn từ loại Penn Treebank được cho trong bảng 3 dưới đây..
- Tập nhãn từ loại Penn Treebank.
- Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam.
- Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt độ chính xác cao (Khoảng hơn 97.
- Có thể nói rằng kết quả đạt được của bài toán gán nhãn từ loại cho tiếng Anh đã ngày càng tiến gần tới mức tối ưu.
- các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái Lan … cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn là một thách thức lớn.
- CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI.
- Theo Daniel Jurafsky [9], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn từ loại thuộc vào một trong hai loại: Phương pháp thủ công và phương pháp dựa trên học máy.
- Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai”.
- Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB...và dữ liệu quan sát là các từ trong câu.
- Hai tác giả Fábio N.Kepler và Marcelo Finger cũng công bố kết quả sử dụng mô hình HMM để gán nhãn từ loại cho tiếng Bồ Đào Nha với kết quả .
- Phần này sẽ điểm qua một vài nghiên cứu tiêu biểu liên quan đến bài toán gán nhãn từ loại tiếng Việt..
- Nghiên cứu thực nghiệm sử dụng tập nhãn gồm 48 nhãn từ loại với 10 miền giới hạn..
- Ngoài ra còn có nhiều nghiên cứu khác theo hướng dựa trên phương pháp học máy để giải quyết bài toán gán nhãn từ loại.
- Có thể kể đến hệ thống tích hợp tách từ và gán nhãn từ loại của tác giả Trần Thị Oanh xây dựng năm 2008.
- Việc gán nhãn từ loại được tiến hành bằng phương pháp MEM với hai cách tiếp cận ở mức từ và mức hình vị.
- Đây chính là điểm nổi bật của phương pháp gán nhãn từ loại này..
- Như vậy, có thể thấy rằng bài toán gán nhãn từ loại cho tiếng Việt đang ngày càng được quan tâm nghiên cứu, bước đầu đã đạt được một số kết quả khá khả quan..
- Như vậy, có khá nhiều phương pháp học máy đã được áp dụng để giải quyết bài toán gán nhãn từ loại tiếng Việt.
- BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT.
- Việc khảo sát các phương pháp học máy được áp dụng thành công cho nhiều ngôn ngữ (chủ yếu là khảo sát các phương pháp đã được sử dụng cho 3 ngôn ngữ tiêu biểu là tiếng Anh, tiếng Trung Quốc và tiếng Thái) cho thấy có khá nhiều phương pháp học máy có thể áp dụng cho bài toán gán nhãn từ loại Tiếng Việt.
- Để rõ hơn về vấn đề này, thử xem xét trong trường hợp một bài toán gán nhãn từ loại gồm có 8 nhãn từ loại.
- Thuật toán gán nhãn cho dữ liệu dạng chuỗi..
- Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại.
- THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI.
- Dựa trên cơ sở lý thuyết đã có ở chương 3, khóa luận tiến hành thực nghiệm áp dụng ba mô hình học máy MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt trên cùng môi trường thực nghiệm và tập đặc trưng.
- Sử dụng các công cụ dưới đây để tiến hành thực nghiệm gán nhãn từ loại tiếng Việt:.
- Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình CRF bằng công cụ CRF++ xây dựng bởi tác giả người Nhật Taku Kudo [24].
- Thực nghiệm gán nhãn từ loại tiếng việt sử dụng mô hình SVM dựa trên công cụ SVM multiclass .
- o Trích chọn đặc trưng về thông tin từ vựng và thông tin nhãn từ loại o Đánh giá độ chính xác của kết quả.
- Dữ liệu thực nghiệm và tập nhãn từ loại.
- Tập nhãn từ loại Viet Tree Bank cho tiếng Việt STT Tên nhãn Ý nghĩa của nhãn.
- Tập nhãn từ loại VnPOS cho tiếng Việt STT Tên nhãn Ý nghĩa của nhãn.
- đối chiếu, so sánh kết quả đạt được khi sử dụng các mô hình học máy khác nhau cho bài toán gán nhãn từ loại..
- Thông tin nhãn từ loại.
- Hệ thống gán nhãn từ loại cho tiếng Việt.
- Sử dụng các phương pháp học máy MEM, CRF và SVM, bài toán gán nhãn từ loại được xem là bài toán phân lớp với các lớp chính là các nhãn từ loại đã được xác định trước.
- Kiến trúc tổng thể của mô hình gán nhãn từ loại sẽ được sử dụng trong thực nghiệm được thể hiện trong.
- Một mô hình gán nhãn từ loại tiếng Việt.
- Gán nhãn từ loại dựa vào thông tin về từ (Tiếp cận dựa trên mức từ)..
- Gán nhãn từ loại dựa vào thông tin hình vị (Tiếp cận dựa trên mức hình vị)..
- gán nhãn.
- Tài liệu gán nhãn từ loại Tài liệu đã gán nhãn.
- Gán nhãn từ loại dựa vào thông tin về từ.
- Gán nhãn từ loại dựa vào thông tin về từ là việc gán nhãn sử dụng các đặc trưng ngữ cảnh xung quanh từ đang xét.
- Gán nhãn từ loại dựa vào thông tin hình vị.
- Hướng tiếp cận gán nhãn từ loại ở mức hình vị dựa trên đặc điểm của tiếng Việt là các từ được cấu thành từ các hình vị.
- Thực nghiệm cho thấy tính khả quan của các hướng tiếp cận dựa trên các mô hình MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt.
- Đồng thời, khóa luận cũng đã trình bày, phân tích việc áp dụng ba mô hình học máy tiên tiến hiện nay là MEM, CRF và SVM cho bài toán gán nhãn từ loại tiếng Việt..
- Tiến hành thực nghiệm gán nhãn từ loại với tập nhãn ở mức mịn hơn..
- Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất.
- Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản Tiếng Việt.
- Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt