« Home « Kết quả tìm kiếm

Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn


Tóm tắt Xem thử

- Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn.
- Abstract: Tổng quan về nhận dạng tiếng nói, xử lý tiếng nói, rút trích vector đặc trưng và nghiên cứu về biến đổi wavelet, về mô hình Markov ẩn HMM và ứng dụng trong nhận dạng tiếng nói.
- Khảo sát về các đặc điểm ngữ âm của tiếng Việt như âm vị tiếng Việt, thanh điệu tiếng Việt.
- Từ đó xây dựng hệ thống nhận dạng thanh điệu tiếng Việt theo chu kỳ, nhận dạng tiếng Việt nguyên từ rời rạc có áp dụng phân lớp theo thanh điệu, dùng vectơ đặc trưng SCWT và mô hình HMM trái phải 5 trạng thái.
- Đồng thời xây dựng bộ tiền xử lý nâng cao chất lượng tiếng nói dùng kỹ thuật triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu bằng wavelet..
- Nhận dạng lời nói.
- Tiếng Việt.
- Thông tin tiếng nói là loại hình thông tin phổ biến nhất trong các hệ thống viễn thông hiện nay.
- Do vậy lĩnh vực nghiên cứu về tiếng nói và xử lý tiếng nói được rất nhiều nhà nghiên cứu trong ngành điện tử viễn thông quan tâm.
- Về cơ bản tiếng nói là một loại tín hiệu một chiều điển hình nên các kiến thức về xử lý tín hiệu hoàn toàn có thể áp dụng với tín hiệu tiếng nói.
- Đó cũng là một điều thuận lợi đối với những nhà nghiên cứu về xử lý tiếng nói vì lý thuyết và công nghệ xử lý tín hiệu đã có những bước phát triển to lớn và được ứng dụng rộng rãi trong thời gian gần đây.
- Xử lý tiếng nói bao gồm nhiều lĩnh vực như triệt nhiễu và nâng cao chất lượng tiếng nói, mã hóa và nén tiếng nói, tổng hợp tiếng nói, nhận dạng tiếng nói,....
- Lĩnh vực nhận dạng tiếng nói có nhiều ứng dụng trong thực tế như điều khiển (thiết bị, robot, máy tính) bằng tiếng nói, chuyển tiếng nói thành văn bản, dịch tự động, đặt hàng, giao dịch ngân hàng tự động qua mạng điện thoại, quay số điện thoại bằng tiếng nói, hộp thư thoại tự động.
- Nhận dạng tiếng nói đã được nghiên cứu nhiều trên thế giới và thu được nhiều kết.
- quả quan trọng, một số sản phẩm nhận dạng tiếng nói đã được ứng dụng trong thực tiễn.
- Tuy nhiên mức độ chính xác của hầu hết các hệ thống nhận dạng là chưa thật cao, do vậy tính ứng dụng thực tiễn còn thấp.
- Đặc biệt, do vấn đề trên thế giới có nhiều ngôn ngữ, mỗi ngôn ngữ lại có những đặc điểm ngữ âm riêng, nên rất khó có thể xây dựng được một hệ thống nhận dạng tiếng nói sử dụng tốt cho tất cả các ngôn ngữ.
- Trong khi các hệ thống nhận dạng tiếng nói tiếng Anh hiện nay cho độ chính xác khá cao thì các hệ thống nhận dạng tiếng Việt, tiếng Thái.
- có độ chính xác chưa cao và cần phải nghiên cứu nhiều hơn nữa mới có thể ứng dụng nhiều trong thực tiễn..
- Tại Việt Nam, ngay từ khi Công nghệ Viễn thông và Công nghệ Thông tin mới bắt đầu phát triển đầu những năm 80 đã có những nhà nghiên cứu mạnh dạn đi vào lĩnh vực nhận dạng tiếng nói tiếng Việt (GS.TSKH Bạch Hưng Khang, nguyên Viện trưởng Viện Công nghệ thông tin, Viện Khoa học &Công nghệ Việt Nam).
- Từ đó đến nay nhiều công trình nghiên cứu về nhận dạng tiếng Việt đã ra đời và thu được những kết quả quan trọng tuy nhiên một thực tế là hiện nay vẫn chưa có một hệ thống nhận dạng tiếng Việt nào hoàn chỉnh, chính xác có tính ứng dụng cao trong thực tiễn.
- Vì thế những nghiên cứu về nhận dạng tiếng Việt vẫn sẽ là một trong những hướng nghiên cứu “nóng” trong thời gian tới tại Việt Nam..
- Biến đổi wavelet ra đời được ví như một cuộc cách mạng trong lĩnh vực xử lý tín hiệu, biến đổi wavelet đã được sử dụng thay thế biến đổi Fourier truyền thống trong rất nhiều hệ thống xử lý tín hiệu.
- Trong lĩnh vực xử lý, nhận dạng tiếng nói, biến đổi wavelet cũng có nhiều ứng dụng.
- Trên thế giới đã có những hệ thống nhận dạng tiếng Anh dùng biến đổi wavelet cho độ chính xác rất cao.
- Tại Việt Nam cũng mới bắt đầu có những nghiên cứu sử dụng biến đổi wavelet để rút trích vector đặc trưng trong nhận dạng tiếng Việt [15], tuy nhiên những nghiên cứu này cũng mới dừng lại ở mức độ kiểm chứng một phương pháp mới trong nhận dạng tiếng Việt chứ chưa xây dựng được một hệ thống nhận dạng tiếng Việt hoàn chỉnh hiệu quả..
- Ngoài việc xác định được vector đặc trưng hiệu quả, để hệ thống nhận dạng là độc lập người nói, ít phụ thuộc vào môi trường và điều kiện khi nói (bản chất của tiếng nói là cùng một từ có thể được phát âm khác nhau đối với mỗi người và với bản thân một người trong các điều kiện khác nhau) cũng như tăng số lượng từ nhận dạng thì công việc phân lớp và huấn luyện mẫu là rất quan trọng.
- Có nhiều phương pháp để phân lớp và huấn luyện mẫu như sử dụng.
- Đối với hầu hết các ngôn ngữ trên thế giới như tiếng Anh, mô hình HMM được xem là mô hình hiệu quả nhất, hầu hết các nghiên cứu hiện nay về nhận dạng tiếng Việt sử dụng phương pháp ANN một số khác đi theo hướng tiếp cận dùng HMM [4, 13]..
- Tiếng Việt là ngôn ngữ có thanh điệu, điểm khác biệt lớn nhất của tiếng Việt so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp là thanh điệu.
- So với các ngôn ngữ thanh điệu khác như tiếng Thái, tiếng Hoa, tiếng Việt lại có các đặc điểm ngữ âm của thanh điệu riêng.
- Bài toán nhận dạng thanh điệu là một bài toán đã được nghiên cứu nhiều trong nhận dạng tíếng Việt .
- Một sự khác biệt nữa của tiếng Việt so với các ngôn ngữ khác là các đặc điểm ngữ âm của âm vị.
- Do sự khác biệt này, mô hình nhận dạng theo âm vị trong tiếng Việt cũng có những điểm khác biệt so với các hệ thống nhận dạng khác..
- Luận văn này thừa kế các vấn đề lý thuyết đã được nghiên cứu và kiểm chứng trong và ngoài nước, sử dụng các nghiên cứu về biến đổi wavelet và mô hình HMM để áp dụng đề xuất một phương pháp nhận dạng thanh điệu tiếng Việt theo chu kỳ pitch và xây dựng hệ thống nhận dạng thanh điệu theo chu kỳ pitch.
- Kết quả nhận dạng thanh điệu thu được là 95.
- Tiếp theo, luận văn cũng đề xuất một phương pháp nhận dạng tiếng Việt nguyên từ rời rạc hoàn chỉnh.
- Phương pháp này sử dụng mô hình nhận dạng thanh điệu đã tiếng Việt đã khảo sát để phân lớp và sử dụng vector đặc trưng là các hệ số SCWT biến đổi sang miền Ceptral..
- Ngoài việc nhận dạng tiếng nói thu âm sẵn, một hệ thống thu âm và nhận dạng tiếng nói trực tiếp từ micro cũng được xây dựng với bộ tiền xử lý nâng cao chất lượng tiếng nói dùng một phương pháp triệt nhiễu kết hợp kỹ thuật trừ phổ và kỹ thuật triệt nhiễu dùng biến đổi wavelet..
- Các kết quả thu được độ chính xác của hệ thống nhận dạng là 91 % kém hơn một chút so với các hệ thống nhận dạng truyền thống dùng MFCC và ANN.
- Mặc dù đã có nhiều nghiên cứu nhận dạng tiếng Việt dùng MFCC và ANN, đã có nhiều cải tiến, nhiều đề xuất nhưng độ chính xác của hệ thống nhận dạng không tăng được nhiều.
- Trong hoàn cảnh đó, việc xây dựng một hệ thống nhận dạng dùng phương pháp khác cho chất lượng gần tương đương cũng rất có ý nghĩa.
- Nếu được đầu tư nghiên cứu nhiều hơn, phương pháp nhận dạng tiếng Việt dùng SCWT và HMM có phân lớp thanh điệu theo chu kỳ pitch sẽ là một phương pháp hứa hẹn có khả năng nâng cao được độ chính xác của hệ thống nhận dạng và có thể ứng dụng trong thực tiễn..
- References Tiếng Việt.
- [1] Hoàng Đình Chiến, Lê Tiến Thường (2005), “Nhận dạng tiếng Việt dùng mạng Neural kết hợp với trích đặc trưng LPC và AMDF”, Hội thảo CNTT Quốc Gia..
- [2] Hoàng Đình Chiến, “Nhận dạng tiếng Việt dùng mạng Neural kết hợp với trích đặc trưng LPC và AMDF”, Chuyên san Tạp chí BCVT..
- [3] Hà Đình Dũng, Nguyễn Kim Quang (2003), “Xây dựng bộ giảm nhiễu sử dụng phương pháp trừ phổ ứng dụng trong hệ thống nhận dạng tiếng nói”, Báo cáo hội thảo quốc gia CNTT, Thái Nguyên.
- [4] Đỗ Xuân Đat, Võ Văn Tuấn (2003), Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói, Luận văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh..
- [5] Đặng Ngọc Đức, “Ứng dụng mạng neural trong nhận dạng tiếng nói mười chữ số tiếng Việt”, Chuyên san Tạp chí BCVT..
- [6] Đặng Ngọc Đức, “Gán nhãn âm vị trong quá trình xây dựng CSDL tiếng Việt”, Chuyên san Tạp chí BCVT..
- [7] Đặng Ngọc Đức, Lương Chi Mai, “Tăng cường độ chính xác của mạng neural nhận dạng tiếng Việt”, Chuyên san Tạp chí BCVT..
- [8] Nguyễn Hoàng Hải, Hà Trần Đức, Nguyễn Việt Anh (2005), Công cụ phân tích wavelet và ứng dụng trong MATLAB, NXB Khoa học kỹ thuật..
- [9] Bùi Huy Hải (2004), Nén tín hiệu tiếng nói dùng biến đổi Wavelet, Luận văn thạc sỹ khoa học, ĐH Bách Khoa Hà Nội..
- [10] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà, “Xác đinh tham số đặc trưng của các nguyên âm không dấu tiếng Việt”, Chuyên san Tạp chí BCVT..
- [11] Lương Chi Mai, Đặng Ngọc Đức (2005), “Hệ thống nhận dạng tiếng việt không dấu liên tục có bộ từ vựng kích thước trung bình”, Hội thảo CNTT Quốc Gia, Hải Phòng..
- [12] Nguyễn Thị Thanh Mai, Ngô Hoàng Huy, Nguyễn Huy Hoàng (2005), “Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói”, Hội thảo CNTT Quốc Gia, Hải Phòng..
- [13] Nguyễn Hồng Quang (2004), Nhận dạng tiếng nói tiếng Việt tìm hiểu và ứng dụng, Luận văn tốt nghiệp Cử nhân CNTT, Đại học KHTN TP Hồ Chí Minh..
- [14] Nguyễn Đình Thông (2005), “Tài liệu hướng dẫn báo cáo phần Xử lý ảnh và tín hiệu”, Hệ Cao học, Đại học Quốc gia Hà nội..
- [15] Lê Tiến Thường, Hoàng Đình Chiến, Trần Thanh Hùng (2004), “Phương pháp hiệu quả nhận dạng tiếng Việt ứng dụng phép biến đổi Wavelet”, Chuyên san Tạp chí BCVT..
- [16] Lê Tiến Thường, Huỳnh Ngọc Phiên, “Phương pháp mới trích chu kỳ cao độ trung bình trong nhận dạng thanh điệu tiếng Việt”, Chuyên san Tạp chí BCVT, 2005..
- [17] Lê Tiến Thường, Hoàng Đình Chiến, “Biến đổi wavelets, subband coding và một số ứng dụng trong xử lý tín hiệu”..
- [18] Nguyễn Quốc Trung (2002), Xử lý tín hiệu và lọc số, tập 1,2 NHB KHKT..
- [19] Nguyễn Quốc Trung (2002), Bài giảng môn Xử lý tín hiệu nâng cao, Hệ cao học, ĐH Bách Khoa Hà Nội.