« Home « Kết quả tìm kiếm

Phân tích cú pháp trong tổng hợp tiếng nói tiếng Việt.


Tóm tắt Xem thử

- Bài toán phân tích cú pháp.
- Vai trò của phân tích cú pháp trong tổng hợp tiếng nói.
- Hướng tiếp cận sử dụng Treebank cho phân tích cú pháp.
- Hiện trạng các hướng nghiên cứu cho phân tích cú pháp.
- Các nghiên cứu về phân tích cú pháp tiếng Việt.
- HỆ THỐNG PHÂN TÍCH CÚ PHÁP SHIFT-REDUCE.
- Lý thuyết cơ sở về hệ thống phân tích shift-reduce.
- Khái niệm state và action trong phân tích shift-reduce.
- Quá trình phân tích cú pháp shift-reduce.
- Huấn luyện hệ thống phân tích shift-reduce sử dụng thuật toán Perceptron cấu trúc.
- Bài toán tìm kiếm trong hệ thống phân tích shift-reduce.
- Hệ thống phân tích shift-reduce sử dụng thuật toán best first search(BFS.
- Các nghiên cứu đi trước về BFS cho phân tích cú pháp shift-reduce.
- Hệ thống phân tích cú pháp shift-reduce sử dụng BFS của luận văn.
- Thuật toán quy hoạch động cho phân tích shift-reduce.
- Đánh giá hiệu năng của hệ thống phân tích shift-reduce sử dụng BFS.
- Vấn đề của hệ thống phân tích shift-reduce với tìm kiếm BFS.
- Sử dụng ước lượng A* để tăng tốc độ phân tích của hệ thống.
- Kết quả thí nghiệm với hệ thống phân tích cú pháp.
- Tuy nhiên, trong phạm vi nghiên cứu của mình, người làm luận văn nhận thấy việc áp dụng các kết quả của phân tích cú pháp tiếng Việt vào hệ thống tổng hợp tiếng nói vẫn còn rất hạn chế .
- 25 Bảng 3-3 Kết quả thử nghiệm của hệ thống phân tích cú pháp BFS-DP Shift-Reduce của luận văn trên section 24 của tập dữ liệu Penn Treebank.
- 35 Bảng 4-1 Bộ đặc trưng bề mặt được đề xuất bởi người làm luận văn dựa trên lý thuyết về thông tin bề mặt trong phân tích cú pháp của Hall (2014.
- 55 Bảng 5-4 Kết quả của thí nghiệm với phân tích cú pháp tiếng Việt.
- 56 Bảng 5-5 Kết quả của mô hình dự đoán ngắt nghỉ sử dụng luật với hai bộ dữ liệu phân tích cú pháp thủ công và tự động.
- 9 Hình 3-1 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ không.
- 19 Hình 3-2 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ nhất.
- 19 Hình 3-3 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ hai.
- 19 Hình 3-4 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ ba.
- 20 Hình 3-5 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ tư.
- 20 Hình 3-6 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ năm.
- 20 Hình 3-7 Ví dụ minh họa phân tích shift-reduce: trạng thái cuối cùng.
- 21 Hình 3-8 Biểu thức suy diễn của các action trong hệ thống phân tích cú pháp Shift-Reduce của luận văn.
- Mục đích của phân tích cú pháp là cung cấp thông tin về ngữ pháp của một câu văn bản, thường được xác định dưới dạng cây như Hình 1-1.
- Vai trò của phân tích cú pháp trong tổng hợp tiếng nói Trong số các hệ thống ứng dụng phân tích cú pháp nhiều nhất, có thể kể đến tổng hợp tiếng nói.
- Trong giới hạn hiểu biết của người làm luận văn, có thể liệt kê ra một số các nghiên cứu phổ biến trên thế giới trong việc áp dụng phân tích cú pháp vào tổng hợp tiếng nói (đặc biệt là cho tiếng Việt) như sau.
- Mục tiêu và nội dung của luận văn Luận văn sẽ tập trung hướng tới xây dựng một bộ phân tích cú pháp tiếng Việt để qua đó áp dụng làm nâng cao chất lượng của hệ thống tổng hợp tiếng nói.
- Hệ thống phân tích cú pháp tiếng Việt này sẽ phải thỏa mãn hai điều kiện: độ chính xác cao và tốc độ phân tích đủ nhanh để có thể vận hành trong hệ thống thực.
- Về mặt nội dung chính, luận văn được chia thành 5 chương: Chương 2sẽ trình bày về một số hướng nghiên cứu tổng quan trên thế giới về phân tích cú pháp, các phương pháp và các mô hình được sử dụng cho phân tích cú pháp.
- Gần cuối chương sẽ có đề cập đến thuật toán Perceptron cấu trúc, một trong Lê Quang Thắng – CNTT.KH.2012B 6 những thuật toán học máy mạnh nhất cho phân tích cú pháp nói riêng và xử lý ngôn ngữ tự nhiên nói chung, và cũng là thuật toán học máy luận văn sẽ sử dụng cho hệ thống phân tích cú pháp tiếng Việt của mình.
- Cuối chương sẽ là một số tóm tắt khái quát về tình hình nghiên cứu phân tích cú pháp cho tiếng Việt.
- Chương 3chủ yếu tập trung nói về hệ thống phân tích cú pháp của luận văn, được dựa trên nền tảng là phương pháp phân tích cú pháp Shift-Reduce kết hợp với thuật toán học máy Perceptron cấu trúc của Zhu (2013)[14].
- Cuối chương sẽ là một số thí nghiệm để đánh giá độ hiệu quả của hệ thống so với các hệ thống phân tích cú pháp Shift-Reduce sử dụng giải thuật BFS trong các nghiên cứu đi trước.
- Đầu tiên là việc đề xuất và sử dụng một bộ đặc trưng mới dành cho phân tích cú pháp Shift-Reduce để nhằm làm giảm độ phức tạp thuật toán mà không bị mất mát về độ chính xác.
- Bài toán phân tích cú pháp ở mức cao nhất là một bài toán khó, do có quá nhiều cây cú pháp hoàn chỉnh tương ứng với một câu đầu vào, tạo nên sự nhập nhằng khiến độ chính xác của hệ thống phân tích cú pháp có thể rất thấp.
- Hƣớng tiếp cận sử dụng Treebank cho phân tích cú pháp Các thông tin được trả ra bởi hệ thống phân tích cú pháp đều là những thông tin không thể suy diễn được trực tiếp ra từ câu văn bản đầu vào.
- Lê Quang Thắng – CNTT.KH.2012B 8 Để giải quyết tất cả các vấn đề kể trên, đa phần các nghiên cứu về phân tích cú pháp đều sử dụng kho ngữ liệu Treebank, một cách tiếp cận hướng dữ liệu dành riêng cho phân tích cú pháp.
- HB (Head Binarization): đây là phương pháp nhị phân hóa dựa trên vị trí xuất hiện của từ trung tâm[9], rất hữu hiệu cho những nghiên cứu về phân tích cú pháp cần tận dụng các đặc trưng liên quan đến từ trung tâm.
- Hiện trạng các hƣớng nghiên cứu cho phân tích cú pháp Với cách tiếp cận sử dụng Treebank, thì việc xây dựng một mô hình học máy thống kê dựa trên tập dữ liệu đó là điều vô cùng thiết yếu.
- như trong phân tích PCFG thì chuỗi sự kiện này chính là các luật cú pháp.
- Một trong những hệ thống phân tích cú pháp theo hướng tiếp cận Generative nổi tiếng nhất là hệ thống phân tích LPCFG của Michael Collins[3].
- Cho đến thời điểm hiện tại, Lê Quang Thắng – CNTT.KH.2012B 13 đây là phương pháp học máy được sử dụng rộng rãi nhất trong bài toán phân tích cú pháp nói chung và xử lý ngôn ngữ tự nhiên nói riêng.
- Các nghiên cứu về phân tích cú pháp tiếng Việt Các nghiên cứu về phân tích cú pháp tiếng Việt cho đến hiện nay vẫn còn rất hạn chế.
- Trong giới hạn tìm hiểu của luận văn thì đa phần các hệ thống phân tích cú pháp tiếng Việt đều dựa trên các mô hình học máy Generative, trong số nổi bật nhất là hệ thống phân tích cú pháp của vlsp được phát triển bởi Lê Anh Cường.
- Độ chính xác của hệ thống này tính theo thang điểm F-score là 75% (được thực hiện bởi người làm luận văn), hiện được coi là hệ thống phân tích cú pháp có độ chính xác cao nhất cho tiếng Việt.
- Vì lí do đó, luận văn sẽ xây dựng một hệ thống phân tích cú pháp sử dụng thuật toán Perceptron cấu trúc hội tụ đủ cả 2 tiêu chí: độ chính xác cao và tốc độ phân tích nhanh để có thể ứng dụng vào trong hệ thống tổng hợp tiếng nói.
- Trong chương sau, luận văn sẽ trình bày về hệ thống phân tích cú pháp cùng với bài toán tối ưu hóa tìm kiếm dựa trên phương pháp phân tích cú pháp Shift-Reduce.
- HỆ THỐNG PHÂN TÍCH CÚ PHÁP SHIFT-REDUCE 3.1.
- Điểm mạnh nhất của phân tích shift-reduce đó là có thể chuyển tất cả các bài toán mang tính cấu trúc phức tạp như phân tích cú pháp thành bài toán gán nhãn chuỗi đơn giản hơn.
- Những lý thuyết này hầu hết được dựa hệ thống phân tích cú pháp Shift-Reduce của Zhu (2013)[14].
- Khái niệm state và action trong phân tích shift-reduce Một hệ thống phân tích cú pháp shift-reduce hoạt động như một máy chuyển trạng thái hữu hạn.
- queue Q: tập các từ còn lại cần phải phân tích.
- Quá trình phân tích cú pháp shift-reduce Quá trình phân tích shift-reduce diễn ra như sau.
- Tại state 0, thực hiện thao tác SHIFT, chuyển đến state 1 Hình 3-2 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ nhất.
- Tại state 1, thực hiện thao tác U-REDUCE(NP) (kết hợp đơn chuyển từ P → NP) tiếp, chuyển đến state 2 Hình 3-3 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ hai.
- Tại state 2, thực hiện thao tác SHIFT, chuyển đến state 3 Lê Quang Thắng – CNTT.KH.2012B 20 Hình 3-4 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ ba.
- Tại state 3, thực hiện thao tác SHIFT tiếp, chuyển đến state 4 Hình 3-5 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ tƣ.
- Tại state 4, thực hiện thao tác B-REDUCE(VP) (kết hợp đôi bằng luật VP → V V) tiếp, chuyển đến state 5 Hình 3-6 Ví dụ minh họa phân tích shift-reduce: trạng thái thứ năm.
- Tại state 5, thực hiện thao tác B-REDUCE(S) (kết hợp đôi bằng luật S→NP VP), chuyển đến state 6 Lê Quang Thắng – CNTT.KH.2012B 21 Hình 3-7 Ví dụ minh họa phân tích shift-reduce: trạng thái cuối cùng.
- Huấn luyện hệ thống phân tích shift-reduce sử dụng thuật toán Perceptron cấu trúc Tại mỗi state trong phân tích cú pháp shift-reduce sẽ có nhiều hơn một action tương ứng, dẫn đến việc nhập nhằng khi có nhiều state kết thúc cho cùng một state bắt đầu.
- Trong phần này, luận văn sẽ trình bày về hai phương pháp huấn luyện phổ biến nhất dành cho phân tích cú pháp shift-reduce, đó là: huấn luyện cục bộ và huấn luyện toàn cục.
- Phương pháp này có ưu điểm là chi phí tính toán nhỏ do đã quy được bài toán phân tích cú pháp thành bài toán phân loại thuần túy.
- Mô hình huấn luyện toàn cục với Perceptron cấu trúc dành cho phân tích shift-reduce cho đến nay vẫn là một trong các mô hình mang lại độ chính xác cao nhất.
- Ta có thể liệt kê ra một số các đặc trưng cơ bản thường hay được sử dụng cho các nghiên cứu về phân tích shift-reduce bao gồm.
- Trong giới hạn nghiên cứu của luận văn về các hệ thống phân tích shift-reduce, thì có hai bộ đặc trưng rất nổi tiếng.
- Bài toán tìm kiếm trong hệ thống phân tích shift-reduce Như đã được trình bày trong chương 1 của luận văn, có hai vấn đề lớn nhất đối với một hệ thống phân tích cú pháp: độ chính xác và độ phức tạp trong chi phí tính toán.
- Chính vì vậy, nên hầu hết các hệ thống phân tích cú pháp shift-reduce trên thế giới đều sử dụng các phương pháp tìm kiếm không đầy đủ.
- Dựa trên những giả thuyết đó, việc nghiên cứu cách thức làm sao để thực hiện được phương pháp tìm kiếm đầy đủ đối với hệ thống phân tích shift-reduce sẽ là một hướng nghiên cứu rất hứa hẹn.
- Đây cũng là ý tưởng được Sagae và Lavie giới thiệu lần đầu tiên trong hệ thống phân tích cú pháp của họ vào năm 2006.
- Hệ thống phân tích cú pháp shift-reduce sử dụng BFS của luận văn Hệ thống phân tích cú pháp BFS shift-reduce của luận văn được xây dựng dựa trên ý tưởng về BFS của hệ thống phân tích cú pháp shift-reduce của Kai Zhao (2013)[22].
- Output: véc tơ trọng số w cuối cùng Thứ hai, hệ thống của luận văn được áp dụng cho bài toán phân tích thành phần (constituent parsing), còn hệ thống của Kai Zhao (2013) sử dụng cho phân tích phụ thuộc (dependency parsing).
- FIN: action kết thúc phân tích giống như action Finish.
- Trong hệ thống phân tích cú pháp shift-reduce của mình, Kai Zhao đã sử dụng lý thuyết quy hoạch động để đạt được độ phức tạp thuật toán là hàm đa thức.
- Nói một cách khác, thì đồ thị tìm kiếm ban đầu của phân tích shift-reduce sẽ được Lê Quang Thắng – CNTT.KH.2012B 31 chuyển thành dạng siêu đồ thị (hyperpragh) giống như trong thuật toán CYK của phân tích cú pháp PCFG.
- Như trong phân tích cú pháp shift-reduce, thì thông tin cơ bản dành cho mỗi state sẽ là.
- Về mặt lý thuyết, hệ thống phân tích cú pháp của luận văn cũng gần giống như hệ thống phân tích cú pháp PCFG sử dụng cấu trúc agenda.
- minh họa biểu thức suy diễn của ác action trong hệ thống phân tích cú pháp Shift-Reduce của luận văn sau khi áp dụng thêm thuật toán quy hoạch động.
- Hình 3-8 Biểu thức suy diễn của các action trong hệ thống phân tích cú pháp Shift-Reduce của luận văn.
- Đánh giá hiệu năng của hệ thống phân tích shift-reduce sử dụng BFS Trong phần trước luận văn đã trình bày toàn bộ lý thuyết về hệ thống phân tích cú pháp Shift-Reduce sử dụng thuật toán tìm kiếm BFS kết hợp với lý thuyết quy Lê Quang Thắng – CNTT.KH.2012B 34 hoạch động, ký hiệu là hệ thống phân tích cú pháp BFS-DP Shift-Reduce.
- Để đánh giá hệ thống, luận văn sẽ làm một thử nghiệm so sánh giữa hệ thống của luận văn với hệ thống phân tích cú pháp Shift-Reduce của Sagae (2006) để minh họa được độ ưu việt của hệ thống phân tích cú pháp BFS-DP Shift-Reduce của luận văn so với các nghiên cứu đi trước.
- Độ chính xác của kết quả phân tích cú pháp được đánh giá theo thang điểm F1 bởi phần mềm EVALB.
- Đầu vào chuẩn của hệ thống phân tích cú pháp BFS-DP Shift-Reduce của luận văn được tạo ra bởi bộ gán nhãn từ loại của Stanford.
- Lê Quang Thắng – CNTT.KH.2012B 35 Bảng 3-3 Kết quả thử nghiệm của hệ thống phân tích cú pháp BFS-DP Shift-Reduce của luận văn trên section 24 của tập dữ liệu Penn Treebank Mô hình F1 Tốc độ (câu/giây) Perceptron cấu trúc 88.9 0.8 Maxent 85.1 4.8 Kết quả thí nghiệm: Bảng 3-3 là kết quả của thí nghiệm đánh giá nói trên.
- Tuy nhiên, điều đáng ngại ở đây chính là tốc độ phân tích của hệ thống quá chậm nếu so với hệ thống của Sagae (2006).
- Trong khi đó, có rất nhiều các hệ thống phân tích cú pháp shift-reduce khác sử dụng tìm kiếm không đầy đủ với thuật toán Beam search nhưng vẫn đạt được độ chính xác rất cao (state-of-the-art) nhờ vào các bộ đặc trưng có độ phức tạp cao hơn ví dụ như hệ thống của Zhu với bộ đặc trưng Baseline của Zhang và Clark (2009)[13].
- Lê Quang Thắng – CNTT.KH.2012B 37 Kết chƣơng Trong chương này luận văn đã trình bày toàn bộ lý thuyết về hệ thống phân tích cú pháp Shift-Reduce của luận văn được dựa trên nền tảng là hệ thống phân tích cú pháp Shift-Reduce sử dụng thuật toán Perceptron cấu trúc của Zhu (2013)[14].
- Vấn đề của hệ thống phân tích shift-reduce với tìm kiếm BFS Hình 4-1 Ví dụ đơn giản về việc kết hợp hai state p và q sử dụng action Reduce.
- Các bộ đặc trưng hiện tại dành cho phân tích cú pháp Shift-Reduce sẽ làm tiêu tốn rất nhiều chi phí tính toán cho việc tìm kiếm với thuật toán BFS.
- Ý tưởng này của luận văn được đề xuất dựa trên lý thuyết về thông tin bề mặt trrong phân tích cú pháp được giới thiệu bởi Hall (2014).
- Dựa trên các thông tin bề mặt này, luận văn đã Lê Quang Thắng – CNTT.KH.2012B 41 thiết kế ra một bộ đặc trưng phù hợp để sử dụng cho phân tích cú pháp Shift-Reduce.
- Bảng 4-1 Bộ đặc trƣng bề mặt đƣợc đề xuất bởi ngƣời làm luận văn dựa trên lý thuyết về thông tin bề mặt trong phân tích cú pháp của Hall (2014) 4.3

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt