« Home « Kết quả tìm kiếm

Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt


Tóm tắt Xem thử

- Giới thiệu chung xử lý ngôn ngữ tự nhiên và phân tích văn bản tiếng Việt.
- Tổng quan về xử lý ngôn ngữ tự nhiên.
- Một số bài toán cơ bản phân tích văn bản.
- Một số phương pháp giải các bài toán cơ bản: tách câu, tách từ, gán nhãn từ loại và phân tích cú pháp.
- Bài toán gán nhãn từ loại.
- Bài toán phân tích cú pháp.
- Các công cụ phân tích văn bản tiếng Việt.
- Bài toán gán nhãn từ loại và công cụ vnQtag.
- Bài toán phân tích cú pháp và công cụ vnParser.
- Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt.
- Nội dung và quy trình dựng kho ngữ liệu có chú giải cú pháp (treebank).
- Mô hình chú giải cú pháp SynAF.
- Một số mô hình mã hóa cấu trúc cú pháp.
- 3.3.3 Mô hình chú giải cú pháp tiếng Việt - vnSynAF.
- Ngày nay cùng với sự bùng nổ thông tin trên Internet mà trong đó văn bản là một trong những dạng chủ yếu thì nhu cầu xử lý ngôn ngữ tự nhiên trên máy tính là rất lớn.
- Làm thế nào để máy tính có thể hiểu được ngôn ngữ của con người vẫn là một trong những câu hỏi thách thức các nhà khoa học trong suốt lịch sử nửa thế kỷ của ngành trí tuệ nhân tạo..
- Những năm gần đây, với sự tiến bộ về năng lực tính toán và khả năng lưu trữ của máy tính, các tiếp cận mới về xử lý ngôn ngữ tự nhiên đã thu được những thành công đáng khích lệ, đặc biệt là cách tiếp cận sử dụng phương pháp thống kê trên kho ngữ liệu lớn..
- Xử lý ngôn ngữ tự nhiên là xử lý ngôn ngữ nói và ngôn ngữ viết của con người nên nó mang nét đặc thù riêng cho mỗi ngôn ngữ, mỗi quốc gia.
- Ngành xử lý ngôn ngữ tiếng Việt mới được quan tâm nghiên cứu.
- Trong xử lý ngôn ngữ tự nhiên, kho ngữ liệu là một nguồn tài nguyên quan trọng.
- Một mặt nó được dùng để huấn luyện các mô hình phân tích ngôn ngữ như tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp.
- Mặt khác, nó còn được dùng để kiểm chứng độ tin cậy của các mô hình ngôn ngữ đó.
- Đây cũng là một phần việc trong đề tài cấp Nhà nước về xử lý ngôn ngữ và tiếng nói tiếng Việt giai đoạn 2007-2009..
- Chương 1 - Giới thiệu tổng quan một số vấn đề trong xử lý ngôn ngữ tự nhiên nói chung và xử lý ngôn ngữ tiếng Việt nói riêng.
- Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt..
- Công cụ cho bài toán gán nhãn từ loại.
- Công cụ cho bài toán phân tích cú pháp Chương 3 – Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt vnSynAF..
- Tổng quan về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu của Trí tuệ nhân tạo nhằm xây dựng một hệ thống xử lý cho máy tính, làm cho máy tính có thể “hiểu” được ngôn ngữ của con người gồm cả ngôn ngữ nói và viết.
- Không chỉ với một loại ngôn ngữ của một dân tộc, của một quốc gia máy tính có thể hiểu được, máy tính có thể hiểu được ngôn ngữ của tất cả các dân tộc, các quốc gia trên thế giới.
- Nhất là khi các dữ liệu liên quan đến ngôn ngữ đang dần trở nên là kiểu dữ liệu chính của con người..
- Để làm được những việc đó người ta đã xác định một số bài toán ứng dụng cơ bản trong xử lý ngôn ngữ tự nhiên để giải quyết.
- Còn nhiều bài toán và công nghệ xử lý ngôn ngữ tự nhiên khác, như giao diện người-máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ngôn ngữ.
- Ngữ dụng như vậy nghiên cứu việc ngôn ngữ được dùng để nói về người và vật như thế nào..
- Trong các vấn đề của xử lí ngôn ngữ, có vấn đề cần đến phân tích đầy đủ (như dịch tự động), nhưng cũng có những vấn đề chỉ với phân tích sơ bộ cũng có thể đã xử lí được (như tìm kiếm thông tin, phân tích văn bản cho tổng hợp tiếng nói, mô hình ngôn ngữ trong nhận dạng tiếng nói.
- Phân tích văn bản là một bài toán lớn, phức tạp.
- Nó là nền tảng, tiền đề cho việc xây dựng các ứng dụng quan trọng của xử lý ngôn ngữ như: nhận dạng chữ viết, tóm tắt văn bản, dịch tự động, tìm kiếm thông tin trên mạng,.
- Với mỗi câu thực hiện phân tích cú pháp để xác định ngữ nghĩa của câu.
- Trong xử lý ngôn ngữ tự nhiên, người ta đưa ra các bài toán cơ bản để thực hiện các bài toán trong các bước phân tích văn bản đó.
- Bài toán phân tích cú pháp: phân tích câu thành các thành phần ngữ pháp, xác định mối quan hệ ngữ nghĩa, quan hệ ngữ pháp giữa các thành phần đó..
- Đây cũng là những bài toán khó đối với ngôn ngữ tiếng Việt, đã và vẫn đang được các nhà nghiên cứu quan tâm..
- Theo tạp chí Computational Linguistics, đối với các ngôn ngữ Âu – Mỹ, trong thời gần đây có một số bài báo giới thiệu một số phương pháp và hệ thống tách câu.
- Với ngôn ngữ tiếng Việt có công trình nghiên cứu của nhóm tác giả Lê Hồng Phương và Hồ Tường Vinh với phương pháp học máy thông kê, sử dụng mô hình Maximum Entropy.
- Đây là bước cơ bản khi phân tích sâu văn phạm hay các vấn đề xử lý ngôn ngữ phức tạp khác..
- Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét.
- Về mặt ngữ liệu, các phương pháp phân tích từ loại thông dụng hiện nay dùng một trong các loại tài nguyên ngôn ngữ sau.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố.
- Các bộ gán nhãn từ loại dùng từ điển và văn phạm gần giống với một bộ phân tích cú pháp.
- Các hướng tiếp cận để giải bài toán phân tích cú pháp đều sử dụng văn phạm phi ngữ cảnh để biểu diễn ngôn ngữ, sau đó dùng một số kỹ thuật phân tích để xác định cây phân tích cú pháp.
- Sở dĩ vậy là vì nó biểu diễn được hầu hết các ngôn ngữ tự nhiên, và nó cũng có đủ hạn chế để xây dựng các trình phân tích câu hiệu quả..
- Một cây dẫn xuất cũng được gọi là cây cú pháp cho một phân tích của một ngữ đoạn thành các thành phần kế tiếp.
- Trong các phương để giải các bài toán cơ bản của phân tích ngôn ngữ thì phương pháp thống kê trên một tập dữ liệu mẫu được các nhà nghiên cứu đặc biệt quan tâm hơn cả.
- Một mặt là do phương pháp dễ triển khai thực hiện và được sử dụng rộng rãi trong nhiều ngôn ngữ khác nhau (Anh, Pháp, Trung, Nhật, Thái.
- Có các loại kho ngữ liệu về câu, từ, từ được gán nhãn, câu được gán nhãn cú pháp.
- Trong đó kho dữ liệu về các câu được gán nhãn cú pháp là đầy đủ nhất, từ đây có thể đễ dàng rút được các dữ liệu mẫu về câu, từ hay từ được gán nhãn.
- Các kho ngữ liệu này ngoài việc dùng để làm dữ liệu huấn luyện các mô hình xử lý ngôn ngữ tự động, nó còn có một vai trò quan trọng khác là để đánh giá, kiểm chứng hiệu quả của các mô hình..
- Bộ công cụ trong đề tài nghiên cứu luận văn này chính là để hỗ trợ xây dựng kho ngữ liệu câu tiếng Việt có chú giải cú pháp (gán nhãn cú pháp).
- Việc xây dựng kho ngữ liệu này được thực hiện bởi các chuyên gia ngôn ngữ là các nhà nghiên cứu xử lý ngôn ngữ, các nhà ngôn ngữ học.
- Việc thực hiện là thủ công bằng tay hoặc bán tự động bằng việc sử dụng các công cụ đã có như tách câu, tách từ, gán nhãn từ loại, gán nhãn cú pháp được tích hợp vào chương trình..
- Trong chương này em giới thiệu một số công cụ phân tích văn bản tiếng Việt đã có áp dụng cho các bài toán cơ bản: tách câu, tách từ, gán nhãn từ loại và phân tích cú pháp.
- Đây là những công cụ được xây dựng bằng ngôn ngữ Java mã nguồn mở, có thể dễ dàng mở rộng, tích hợp được vào các hệ thống khác..
- Bộ dữ liệu này được các nhà ngôn ngữ học thuộc trung tâm từ điển học Việt Nam (Vietlex) xây dựng thủ công bằng tay.
- Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở.
- Gán cho mỗi đơn vị từ đó một nhãn từ loại ngôn ngữ..
- Trong đó vnQtag được xây dựng từ năm 2003 theo phương pháp xác suất và đã được công bố rộng rãi trong cộng đồng các nhà nghiên cứu xử lý ngôn ngữ tiếng Việt.
- Phân tích cú pháp đưa ra mô tả về quan hệ và vai trò ngữ pháp của các từ, các cụm từ (hoặc ngữ) trong câu, đồng thời đưa ra hình thái của câu..
- Công cụ sử dụng 2 loại dữ liệu ngôn ngữ là.
- Từ điển này có khoảng 37.000 từ được cung cấp bởi các chuyên gia ngôn ngữ thuộc trung tâm từ điển học Việt Nam (Vietlex.
- Tập các luật cú pháp cho ngôn ngữ tiếng Việt, là các quy tắc sinh ngôn ngữ.
- Để công cụ vnParser chạy tốt thì rất cần có bộ dữ liệu ngôn ngữ đủ chuẩn và đủ lớn có thể bao phủ được hầu hết các từ ngữ tiếng Việt thuộc nhiều lĩnh vực khác nhau..
- Văn phạm này định nghĩa một ngôn ngữ phi ngữ cảnh trên bảng chữ cái {Aux, V, Det, Quant, Adj, N, Prep}.
- Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt 3.1.
- Giới thiệu Kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ tự nhiên.
- Treebank có nhiều ứng dụng quan trọng như đánh giá, kiểm định các công cụ xử lí ngôn ngữ tự động, các phần mềm dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp… Các hệ thống treebank cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Hoa… đã được xây dựng từ lâu, đối với tiếng Việt, việc xây dựng treebank đang là công việc mới bắt đầu.
- Trong lĩnh vực XLNN tự nhiên, nguồn tài nguyên ngôn ngữ đóng vai trò rất quan trọng trong việc nghiên cứu và phát triển các phương pháp và công cụ tự động.
- Có hai cách thường được sử dụng để mã hóa cây cú pháp.
- Theo cách này mỗi thành phần cú pháp sẽ có một cặp dấu ngoặc bao quanh.
- Cách này đa được nghiên cứu kỹ lưỡng và được áp dụng vào một số dự án về xử lý ngôn ngữ của Châu Âu.
- ​Tìm hiểu: Xác định tiếp cận xây dựng treebank phù hợp với ngôn ngữ đang được xem xét.
- Tức là lựa chọn một lược đồ giải thích cấu trúc cú pháp phù hợp.
- Có hai loại lược đồ chú giải cấu trúc cú pháp là chú giải theo cấu trúc thành phần và chú giải theo cấu trúc phụ thuộc.
- Tùy vào đặc điểm ngôn ngữ học khác nhau mà lược đồ chú giải của các ngôn ngữ khác nhau.
- Với tiếng Việt là ngôn ngữ đơn lập, cấu tạo từ cũng phức tạp (đơn và đa âm tiết) nên lựa chọn phù hợp là lược đồ chú giải theo cấu trúc thành phần.
- Về mức độ gán nhãn: tách từ, gán nhãn từ loại và gán nhãn cú pháp.
- Xây dựng công cụ.
- Thực hiện gán nhãn.
- Mục tiêu của vietreebank là xây dựng được lược đồ giải thích cú pháp được 10.000 câu..
- thông tin ngữ nghĩa, hay một số thông tin cú pháp khác.
- Tập nhãn các thành phần cú pháp.
- Tập nhãn này chứa các nhãn mô tả các thành phần cú pháp cơbản là cụm từ và mệnh đề.
- Các nhãn chức năng cú pháp.
- Việc thực hiện gán nhãn được thực hiện qua ba bước: tách từ, gán nhãn từ loại và gán nhãn cú pháp.
- Một số ví dụ gán nhãn cú pháp:.
- Với một số ngôn ngữ như tiếng Anh, vị ngữ luôn là cụm động từ.
- Quy trình gán nhãn cú pháp cho tiếng Việt được hướng đẫn chi tiết trong tài liệu Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn khi xây dựng treebank tiếng Việt trong đề tài VLSP.
- Cấu trúc cú pháp của một câu trong UPenn Treebank Prague Dependency Treebank chú giải cú pháp dựa trên mô hình hai lớp: lớp cấu trúc thành phần và lớp cấu trúc phụ thuộc.
- Biểu diễn một cây chú giải cú pháp một câu tiếng Đức Dạng mã hóa dưới dạng TIGER XML:.
- Mô hình SynAF là là nền tảng của chú giải đa tầng, cho phép kết hợp sự chú giải dữ liệu ngôn ngữ thông qua cả hai mảng cấu trúc.
- TNodes: Biểu diễn các nút kết của cây cú pháp, thường gồm các từ được gán nhãn hình thái cú pháp.
- Khi chú giải cú pháp được gắn vào các nút (kết hoặc không kết), nó sinh ra một nút mới (không kết) hoặc một cạnh phụ thuộc.
- Mô hình SynAF Ví dụ về mã hoá một cây cú pháp bằng SynAF: