« Home « Kết quả tìm kiếm

Mô hình văn phạm liên kết tiếng Việt


Tóm tắt Xem thử

- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THU HƯƠNG MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT Chuyên ngành: Khoa học Máy tính Mã số TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2013 Công trình được hoàn thành tại Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1.
- Nguyễn Thị Thu Hương, Nguyễn Thúc Hải, Nguyễn Thanh Thủy (2012) Kết hợp phân đoạn diễn ngôn với bộ phân tích cú pháp liên kết để phân tích cú pháp câu ghép nhiều mệnh đề tiếng Việt.
- Nguyễn Thị Thu Hương, Lê Ngọc Minh (2012) Ứng dụng văn phạm liên kết trong dịch máy Việt Anh.
- Mô hình văn phạm phi ngữ cảnh là mô hình phổ biến nhất để biểu diễn cú pháp tiếng Việt.
- Việc mô hình văn phạm phi ngữ cảnh thiếu những đặc điểm từ pháp làm cho bộ phân tích cú pháp chấp nhận nhiều câu không bao giờ được sử dụng trong thực tế.
- Một số mô hình văn phạm từ vựng hóa đã được xây dựng để biểu diễn cú pháp tiếng Việt, nhưng do tính chất từ vựng hóa không hoàn toàn, nhiều hiện tượng từ pháp đã bị bỏ qua.
- Ưu điểm đầu tiên của văn phạm phụ thuộc là không có tập ký hiệu không kết thúc dẫn đến cây phụ thuộc đơn giản hơn rất nhiều so với cây ngữ cấu của mô hình văn phạm phi ngữ cảnh.
- Mô hình văn phạm phụ thuộc thích hợp với các ngôn ngữ có trật tự từ tự do và tỏ ra hữu hiệu cho những ứng dụng như tóm tắt văn bản, rút trích thông tin, dịch máy.
- Tuy nhiên, văn phạm phụ thuộc rất khó xây dựng nếu không có những nghiên cứu cơ bản về ngôn ngữ học.
- 2 Mô hình văn phạm liên kết do D.Sleator và D.
- Temperley theo cách tiếp cận phụ thuộc nhưng các mối liên kết lại không định hướng nên việc xác định quan hệ phụ thuộc đơn giản hơn.
- Văn phạm liên kết cũng là một trong số rất ít loại văn phạm hoàn toàn từ vựng hóa.
- Mô hình văn phạm liên kết đưa ra cho phép mỗi từ có một số mối liên hệ với các từ ở bên trái hoặc bên phải, thỏa mãn năm yêu cầu về tính phẳng, tính liên thông, tính thỏa mãn, tính thứ tự và tính loại trừ.
- Dưới đây là những ưu điểm của văn phạm liên kết: 1.
- Phân tích liên kết không chứa ký hiệu không kết thúc, thậm chí cấu trúc còn đơn giản hơn cây phụ thuộc.
- Trong thực tế đã có một số cơ sở dữ liệu được thiết lập từ ngân hàng phân tích liên kết để tạo lập công cụ tra cứu đa phương tiện.
- Giống như văn phạm phụ thuộc, văn phạm liên kết cũng có khả năng biểu diễn trực tiếp mối liên hệ giữa các từ không nhất thiết liền kề.
- Do vậy, văn pham liên kết cho phép một trật tự từ tương đối tự do.
- Văn phạm liên kết có thể biểu diễn mối liên hệ ngữ nghĩa.
- Việc biểu diễn liên hệ ngữ nghĩa dễ dàng hơn văn phạm phụ thuộc vì văn phạm liên kết cho phép chu trình.
- Văn phạm liên kết hoàn toàn từ vựng hóa, do vậy có thể biểu diễn mối liên hệ trực tiếp giữa từng từ chi tiết hơn so với văn phạm phụ thuộc (quan hệ phụ thuộc chỉ định nghĩa đến từ loại) tạo khả năng biểu diễn nhiều hiện tượng từ pháp trong tiếng Việt.
- Liên kết rất gần với đồ thị khái niệm nên có thể chuyển từ liên kết sang đồ thị khái niệm dễ dàng.
- Phân tích liên kết cũng được sử dụng để trích chọn thông tin, đặc biệt là thông tin ngữ nghĩa.
- Liên kết có nhãn nên biểu diễn trực tiếp được mối liên hệ vị ngữ - bổ ngữ hay các mối liên hệ khác trong câu, tạo thuận lợi cho việc dịch sang ngôn ngữ có biến đổi hình thái.
- 3 Lý do chọn đề tài Luận án chọn đề tài “Mô hình văn phạm liên kết tiếng Việt vì những lý do sau: 1.
- Từ trước đến nay, cách phổ biến nhất để biểu diễn cú pháp tiếng Việt là thông qua mô hình văn phạm phi ngữ cảnh với cây ngữ cấu.
- Những đặc điểm này có thể được biểu diễn một cách linh hoạt và đơn giản qua mô hình liên kết.
- Phân tích câu theo mô hình liên kết rất gần với mô hình suy nghĩ của con người, do vậy có thể hỗ trợ hiệu quả cho những học viên tiếng Việt khi tìm hiểu cú pháp và đặt câu.
- Kết quả phân tích liên kết của câu lại đơn giản hơn nhiều so với cây ngữ cấu.
- Tuy là một đồ thị, nhưng phân tích liên kết gần như một danh sách tuyên tính của các từ, mỗi từ có mối liên hệ với không quá 3 từ khác.
- Mô hình văn phạm liên kết cho một cách liên kết các mệnh đề dựa trên kết nối lớn, tạo khả năng phân tích và xử lý câu ghép một cách hiệu quả.
- Nhận thấy mô hình văn phạm liên kết biểu diễn một cách mềm dẻo nhiều hiện tượng cú pháp của tiếng Việt và việc chuyển đổi liên kết cú pháp sang ngôn ngữ khác khá dễ dàng, luận án xây dựng một hệ thống dịch máy Việt - Anh.
- Việc tra cứu nghĩa từ và cụm từ có tham khảo các mối liên kết đã hạn chế được khá nhiều trường hợp nhập nhằng về nghĩa từ.
- Mục đích của đề tài Mục đích của đề tài là nghiên cứu, xây dựng một mô hình văn phạm liên kết tiếng Việt với những đặc điểm sau: 1.
- Dựa trên mô hình văn phạm liên kết được Sleator và Temperley đưa ra.
- Có thể sử dụng để phân tích cú pháp tiếng Việt theo phương pháp phân tích liên kết.
- Mô hình văn phạm liên kết và mối liên hệ với mô hình văn phạm phụ thuộc.
- Các mô hình văn phạm liên kết đã được xây dựng cho tiếng Anh, tiếng Nga và các ngôn ngữ khác.
- Bộ phân tích cú pháp liên kết tiếng Anh.
- Xây dựng mô hình liên kết để biểu diễn cú pháp tiếng Việt.
- Bộ từ điển liên kết của tiếng Việt được xây dựng có tính chất thử nghiệm, bao quát được những hiện tượng cú pháp cơ bản nhất và một số trường hợp cá biệt thường gặp trong thực tế.
- Nghiên cứu mô hình văn phạm liên kết xác suất để khử nhập nhằng trong phân tích cú pháp.
- Đây là mô hình phức tạp hơn nhiều so với văn phạm phi ngữ cảnh xác suất.
- Hệ thống dịch Việt - Anh dựa trên dạng tuyển có chú giải là một minh họa cho việc ứng dụng mô hình văn phạm liên kết tiếng Việt.
- CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH VĂN PHẠM CHO NGÔN NGỮ TỰ NHIÊN Quan hệ văn phạm là cách hình thức hóa những tư tưởng của văn phạm truyền thống như chủ ngữ hay bổ ngữ và những mối quan hệ khác.
- Nhiều mô hình văn phạm đã được đưa ra theo các hướng tiếp cận: cấu trúc (constituency), quan hệ văn phạm (grammar relation), phân loại con (subcategorization) hay phụ thuộc (dependency).
- Cách tiếp cận cấu trúc và văn phạm phi ngữ cảnh Mô hình cho phép tạo lập các cấu trúc một cách đệ quy chính là mô hình văn phạm phi ngữ cảnh (ngữ cấu).
- Kết quả phân tích cú pháp là cây ngữ cấu đã được sử dụng trong nhiều bộ xử lý ngôn ngữ tự nhiên.
- Để giải quyết vấn đề nhập nhằng, tăng độ chính xác của phân tích cú pháp, hay mở rộng khả năng biểu diễn ngôn ngữ, một số mở rộng của mô hình văn phạm phi ngữ cảnh đã được đề xuất.
- Văn phạm phi ngữ cảnh xác suất.
- Văn phạm phi ngữ cảnh xác suất từ vựng hóa.
- Văn phạm kết nối cây.
- Văn phạm kết nối cây từ vựng hóa.
- Tiếp cận qua cấu trúc nét và văn phạm hợp nhất Văn phạm hợp nhất được xây dựng trên cơ sở hợp nhất các cấu trúc nét (feature).
- Văn phạm hợp nhất là công cụ có thể biểu diễn lớp ngôn ngữ loại 0, lớp ngôn ngữ lớn nhất theo phân cấp của Chomsky.
- Cách tiếp cận phụ thuộc Điểm mấu chốt trong mô hình văn phạm phụ thuộc là quan hệ bất đối xứng gọi là quan hệ phụ thuộc.
- Văn phạm phụ thuộc là tương đương yếu với văn phạm phi ngữ cảnh.
- Khác biệt cơ bản giữa văn phạm phụ thuộc và văn phạm ngữ cấu là cấu trúc phụ thuôc thể hiện mối quan hệ trung tâm – phụ thuộc giữa các từ, phân lớp bởi các lĩnh vực theo chức năng như là chủ ngữ hay bổ ngữ trong khi biểu diễn kiểu ngữ cấu nhóm từ thành các ngữ và phân lớp theo lĩnh vực cấu trúc như danh ngữ, động ngữ.
- Những mô hình văn phạm phụ thuộc không đòi hỏi tính chất xạ ảnh rất thích hợp cho các ngôn ngữ có trật tự từ tự do.
- Các mô hình mở rộng của văn phạm phụ thuộc biểu diễn được sự phụ thuộc về hình thái từ (giống, số, cách.
- Văn phạm liên kết Một văn phạm liên kết [3] bao gồm một tập các từ (có thể coi như tập các ký hiệu kết thúc của văn phạm), mỗi từ có một yêu cầu liên kết.
- Tính liên thông (connectivity): các liên kết có khả năng kết nối tất cả các từ trong câu với nhau.
- Tính thoả mãn (satisfaction): các liên kết thoả mãn các yêu cầu liên kết của mỗi từ trong câu 4.
- Tính loại trừ: không có hai liên kết có thể kết nối cùng một cặp từ 5.
- Yêu cầu liên kết của mỗi từ được chứa trong một từ điển.
- Dấu + ở cuối tên kết nối chỉ hướng của liên kết về bên phải trong khi dấu - chỉ hướng liên kết về bên trái.
- Mỗi từ của văn phạm có một tập các dạng tuyển (disjunct) liên hệ với nó.
- Mỗi dạng tuyển tương ứng với một cách thoả mãn các yêu cầu liên kết của từ.
- Biểu đồ trong hình 1.6 chỉ ra các yêu cầu liên kết được thoả mãn trong câu hỏi “Tại sao cậu không tới.
- Hình 1.6 Câu đúng ngữ pháp “tại sao cậu không tới" Lý do lựa chọn mô hình văn phạm liên kết cho tiếng Việt 1.
- Phân tích câu theo mô hình phụ thuộc có nhiều lợi thế.
- Văn phạm liên kết cũng là một dạng của văn phạm phụ thuộc.
- Tuy nhiên do liên kết chỉ quan tâm đến hướng mà không xác định đối tượng nào phụ thuộc nên các mối liên kết có thể suy ra từ quy tắc ngữ pháp dễ dàng hơn.
- Có thể biểu diễn thông tin ngữ nghĩa thông qua những liên kết của văn phạm liên kết.
- Về khả năng biểu diễn ngôn ngữ, đã chứng minh được mọi văn phạm liên kết là đều có văn phạm phi ngữ cảnh tương đương và ngược lại, tức là hai mô hình lý thuyết này đều cùng biểu diễn lớp ngôn ngữ phi 8 ngữ cảnh.
- Văn phạm liên kết có thể biểu diễn sự phụ thuộc giữa các thành phần không liền kề trong câu.
- Với đặc điểm hoàn toàn từ vựng hóa, mô hình liên kết cho phép chỉnh sửa, hoàn thiện bản dịch khá tốt.
- Do vậy khi dịch câu tiếng Việt sang ngôn ngữ biến đổi hình thái mạnh mẽ, cần phải tìm được thông tin về hình thái của từ, liên kết thể hiện rõ ràng các thông tin đó.
- Từ điển của văn phạm liên kết cũng chấp nhận các công thức cho cụm từ và công thức chỉ dành riêng cho một hoặc một số từ nên cho khả năng xử lý nhiều biệt lệ của tiếng Việt một cách linh hoạt.
- CHƯƠNG 2 MÔ HÌNH VĂN PHẠM LIÊN KẾT TIẾNG VIỆT 2.1.
- Văn phạm liên kết cho tiếng Việt Việc xây dựng văn phạm liên kết tiếng việt được xây dựng dựa trên cơ sở.
- Tham khảo văn phạm liên kết tiếng Anh - Nghiên cứu các cấu trúc cú pháp tiếng Việt Văn phạm liên kết được thể hiện qua tập các công thức liên kết trong từ điển.
- Từ điển liên kết tiếng Việt chứa 12 loại từ, tương ứng với cách phân loại trong từ điển tiếng Việt của đề tài VLSP (riêng cảm từ không có liên kết) và một số công thức cho các đối tượng khác như dấu câu, từ để hỏi, giá trị ngày tháng.
- dưới đây cho thấy một đoạn trong từ điển liên kết 2.2.
- Mở rộng từ điển văn phạm liên kết Sau khi xây dựng từ điển ban đầu một cách thủ công với khoảng 1000 mục từ (mỗi từ có thể gồm nhiều nghĩa), sắp xếp theo các tiểu tiểu 9 loại và các ngoại lệ, luận án đã mở rộng từ điển bằng cách dùng giải thuật của Szolovits, với cách đánh giá cặp từ "không phân biệt" là dựa trên cấu trúc từ điển tiếng Việt do đề tài VLSP cung cấp.
- Từ điển hiện hành chứa hơn 40000 mục từ, hơn 150 công thức liên kết và gần 80 kết nối.
- Một đoạn trong từ điển văn phạm liên kết CHƯƠNG 3 PHÂN TÍCH CÚ PHÁP VỚI VĂN PHẠM LIÊN KẾT 3.1.
- Bộ phân tích cú pháp liên kết Giải thuật phân tích câu trong văn phạm liên kết do Sleator và Temperley [3] đưa ra dựa theo phương pháp quy hoạch động.
- Một phân tích liên kết được xây dựng theo phương pháp từ trên xuống, đảm bảo các tiêu chuẩn đã được nêu trong chương 2.
- Khởi đầu, bộ phân tích tìm cách liên kết giữa từ đầu và từ cuối (từ thứ N).
- Chi tiết bộ ngữ liệu mẫu cho bộ phân tích cú pháp liên kết STT Chủ đề Số câu Số từ trung bình/câu 1 Hội thoại tiếng Việt 50 7.6 2 Thể thao 50 12.7 3 Khoa học thường thức 50 8.7 4 Du lịch 50 10.5 Tổng cộng 200 11 Trong hình 2.4.dưới đây là kết quả thực hiện phân tích cú pháp cho câu "Chúng tôi muốn giành các danh hiệu" trong bộ mẫu nói trên Hình 3.7.
- Kêt quả phân tích liên kết của câu "Chúng tôi muốn giành các danh hiệu" Toàn bộ các câu trong bộ ngữ liệu đã được phân tích bằng tay.
- Kết quả phân tích liên kết cho các tập mẫu Tập mẫu Độ chính xác Độ phủ Trung bình Những dạng câu phân tích không thành công là: câu chứa những thành phần bị thay đổi vị trí mà luật liên kết chưa bao quát được, câu chứa thành phần ẩn, câu ghép nhiều mệnh đề, câu phức.
- 3.2.Phân tích cú pháp cho câu ghép Luận án giới hạn phạm vi xử lý trong lớp câu ghép.
- 12 Quá trình phân tích cú pháp cho câu ghép cần qua những bước sau.
- Phân tích cú pháp cho từng mệnh đề, thêm các liên kết nhận được vào liên kết tổng thể.
- Xây dựng cây phân tích diễn ngôn cho câu.
- Các đối tượng này có thể là dấu hiệu phân tách mệnh đề nhưng đồng thời cũng có thể chỉ liên kết các thành phần có cùng chức năng trong câu.
- Việc xây dựng phân tích tổng thể cho câu ghép là tương đối dễ dàng do liên kết là hai chiều.
- Chọn kết nối có bậc cao nhất để đảm bảo tính phẳng cho liên kết - Chọn từ để liên kết

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt