« Home « Kết quả tìm kiếm

Nghiên cứu hệ thống nhận dạng bền vững tiếng nói ứng dụng trong nhận dạng từ khóa tiếng Việt


Tóm tắt Xem thử

- NGUYỄN THỊ ANH XUÂN Nghiên cứu hệ thống nhận dạng bền vững tiếng nói - Ứng dụng trong nhận dạng từ khóa tiếng Việt Chuyên ngành : Đo lường và các hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC : ĐO LƯỜNG NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN QUỐC CƯỜNG Hà Nội, 2010 Luận văn thạc sỹ khoa học Trần Thị Anh Xuân i MỤC LỤC i LỜI CAM ĐOAN.
- viiiMỞ ĐẦU CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Mô hình hệ thống tự động nhận dạng tiếng nói .
- Các vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay .
- Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói .
- Mô hình nhận dạng thích nghi với môi trường .
- Lựa chọn phương pháp nhận dạng bền vững với nhiễu của môi trường........21CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS .
- Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói .
- Ứng dụng thuật toán VTS trong bài toán nhận dạng tiếng nói chữ số tiếng Việt .
- Xây dựng mô hình nhận dạng .
- Cách sử dụng chương trình mô phỏng CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA .
- Khái niệm về nhận dạng từ khóa .
- Mô hình của hệ thống nhận dạng từ khóa .
- Các phương pháp nhận dạng từ khóa .
- Xây dựng mô hình dựa trên hệ thống nhận dạng từ điển lớn .
- Ứng dụng thuật toán VTS trong bài toán nhận dạng từ khóa tiếng Việt .
- b, MLLR Bảng 8: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm B: a, VTS.
- Nhận dạng tiếng nói bao gồm: xử lý tín hiệu tiếng nói và kỹ thuật nhận dạng.
- Cơ sở thực tiễn: Các hệ thống tự động nhận dạng tiếng nói có những ứng dụng rất tích cực vào đời sống của con người.
- Do vậy, việc nâng cao chất lượng của hệ thống nhận dạng tiếng nói là rất cần thiết.
- Mục đích nghiên cứu của luận văn Nghiên cứu và lựa chọn ra phương pháp nhận dạng tiếng nói bền vững với nhiễu để cải thiện chất lượng nhận dạng tiếng nói so với mô hình hệ thống nhận dạng được huấn luyện bởi bộ dữ liệu sạch.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 2 Các đóng góp mới Ứng dụng phương pháp bền vững với nhiễu vào hệ thống nhận dạng tiếng Việt.
- Sau đó triển khai thuật toán bằng ngôn ngữ C và tích hợp vào hệ thống nhận dạng tiếng nói Sphinx3 để đánh giá chất lượng của thuật toán.
- Hệ thống nhận dạng được xây dựng bằng mô hình Markov ẩn HMM kết hợp với phương pháp thích nghi với nhiễu.
- Cấu trúc luận văn: Tác giả chia luận văn gồm các phần sau: Mở đầu Chương 1: Cơ sở lý thuyết Chương 2: Phương pháp thích nghi mô hình của hệ thống nhận dạng tiếng nói dùng chuỗi Taylor (Vector Taylor Series - VTS) Chương 3: Triển khai thuật toán Chương 4: Ứng dụng trong nhận dạng từ khóa Kết luận Để đánh giá chất lượng của thuật toán nhận dạng bền vững với nhiễu, tác giả tiến hành hai thử nghiệm.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 3 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1.Mô hình hệ thống tự động nhận dạng tiếng nói Hình 1: Sơ đồ quá trình huấn luyện.
- Bộ tham số của mô hình nhận dạng thu được trong quá trình luyện mô hình với một tập dữ liệu huấn luyện có trước (Hình 1).
- Nếu tập dữ liệu huấn luyện càng lớn thì khả năng nhận dạng của mô hình sẽ càng cao.
- Vấn đề tồn tại trong hệ thống nhận dạng tiếng nói hiện nay 1.2.1.
- Chất lượng nhận dạng tiếng nói Chất lượng của hệ thống nhận dạng tiếng nói thường được đánh giá dựa trên tỷ lệ lỗi từ.
- Hệ thống nhận dạng tiếng nói có tỷ lệ lỗi từ càng thấp là hệ thống nhận dạng tiếng nói càng chính xác.
- Thời gian nhận dạng tiếng nói d.
- Bài toán đặt ra với hệ thống tự động nhận dạng tiếng nói Bài toán: Xây dựng hệ thống nhận dạng tiếng nói có thể hoạt động được trong môi trường có nhiễu.
- Muốn tăng chất lượng của hệ thống tự động nhận dạng tiếng nói, chúng ta cần áp dùng rất nhiều thuật toán phức tạp vào trong quá trình trích đặc trưng tiếng nói hoặc quá trình cập nhật lại bộ tham số mô hình Markov.
- Hướng giải quyết Để giải quyết bài toán đặt ra của hệ thống nhận dạng tiếng nói trên, chúng ta tích hợp các phương pháp thích nghi với nhiễu vào trong hệ thống tự động nhận dạng tiếng nói, trong đó.
- Vẫn sử dụng mô hình Markov ẩn HMM trong hệ thống nhận dạng tiếng nói • Khâu thích nghi với nhiễu sẽ được tích hợp vào trong quá trình giải mã Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 8 1.3.
- Một số phương pháp nâng cao chất lượng nhận dạng tiếng nói Các hệ thống nhận dạng tiếng nói thường được huấn luyện trong môi trường phòng thí nghiệm (được coi là môi trường sạch), do đó sẽ bỏ qua rất nhiều yếu tố môi trường thực có thể tác động đến tín hiệu tiếng nói.
- Điều này làm cho chất lượng hệ thống nhận dạng tiếng nói sẽ giảm trong môi trường thực và thay đổi ở các môi trường khác nhau.
- Phương án khả thi hơn, áp dụng các phương pháp nhận dạng bền vững với nhiễu vào hệ thống nhận dạng tiếng nói, nhờ đó cùng một hệ thống nhận dạng tiếng nói có thể ứng dụng vào các môi trường khác nhau mà chất lượng nhận dạng của hệ thống được cải thiện.
- Một số phương pháp nhận dạng tiếng nói bền vững với nhiễu: 1.
- Mô hình nhận dạng thích nghi với môi trường … 1.3.1.
- Phương pháp ước lượng cực tiểu hóa trung bình bình phương sai lệch trên thang logarithm … Các phương pháp lọc nhiễu kinh điển tín hiệu tiếng nói đầu vào có cải thiện chất lượng nhận dạng nhưng không nhiều.
- Có một số phương pháp nhận dạng thích nghi mô hình như sau.
- Bằng thực nghiệm [4], người ta đã rút ra nhận xét, trong hệ thống nhận dạng tiếng nói thì các phương pháp biến đổi chuẩn hóa đặc trưng tiếng nói cải thiện được chất lượng nhận dạnh ít hơn các phương pháp thích nghi mô hình.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 23 Bảng 4: Tỷ lệ nhận dạng đúng của PMC và VTS trong môi trường có nhiễu công nghiệp Nhiễu SNR PMC VTS clean dB dB dB dB dB Công Nghiệp Avg.
- Nhiều Microphone Dựa vào kết quả nhận ở bảng 5, bảng 6, chúng ta thấy tỷ lệ lỗi từ của hệ thống nhận dạng thích nghi bằng phương pháp MLLR thấp hơn bằng phương pháp PMC.
- Do đó, có thể đánh giá phương pháp MLLR cải thiện được chất lượng nhận dạng tiếng nói hơn phương pháp PMC.
- Kết quả nhận dạng như sau: Bảng 7: Tỷ lệ nhận dạng đúng của VTS và MLLR trong môi trường có nhiễu thuộc nhóm A: a, VTS.
- Trung bình độ chính xác nhận dạng của phương pháp MLLR dưới 90.
- Kết luận: Dựa vào các kết quả khảo sát trên mục a,b,c, tôi nhận thấy hệ thống nhận dạng sử dụng phương pháp thích nghi VTS cải thiện được chất lượng tốt nhất.
- Do đó, tôi lựa chọn nghiên cứu phương pháp nhận dạng bền vững với nhiễu – VTS trong đề tài luận văn của mình.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 27 CHƯƠNG 2: PHƯƠNG PHÁP THÍCH NGHI MÔ HÌNH CỦA HỆ THỐNG NHẬN DẠNG TIẾNG NÓI DÙNG CHUỖI TAYLOR (VECTOR TAYLOR SERIES - VTS) 2.1.
- Mục đích: Làm cho bộ tham số của mô hình nhận dạng tiếng nói sau khi được thích nghi phù hợp với dữ liệu kiểm tra trong môi trường mới.
- Sơ đồ khối của hệ thống nhận dạng tiếng nói thích nghi mô hình bằng phương pháp VTS: trình tự thực hiện được đánh theo số thứ tự .
- Hình 6: Sơ đồ khối hệ thống nhận dạng có áp dụng phương pháp VTSTrích chọn đặc trưngBộ giải mã Mô hình âm học HMM sạch VTS 1 234 56Kết quả Câu tiếng nói có nhiễu 3 Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 28 2.2.
- Thuật toán cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói Xét mô hình của tiếng nói trong môi trường có nhiễu như Hình 7 [1]: Tín hiệu tiếng nói thu được y[m] được phát ra từ tín hiệu tiếng nói sạch x[m] qua kênh truyền h[m] (microphone) và cộng thêm nhiễu của môi trường n[m], như hình vẽ dưới đây: x[m] y[m] n[m] Hình 7: Mô hình của tiếng nói trong môi trường có nhiễu Quan hệ giữa y[m], x[m], h[m] và n[m] được thể hiện trong công thức dưới đây: (40)Quá trình cập nhật lại Mean và Variance mô hình của hệ thống nhận dạng tiếng nói bao gồm hai bước: Bước 1: Trích chọn đặc trưng tiếng nói Bước 2: Dùng chuỗi Taylor để xấp xỉ tham số mean và variance của HMM Cách thực hiện bước 1 Biến đổi Fourier công thức ta được các module của các tín hiệu trong miền phổ theo công thức dưới đây: (41)Năng lượng của câu tiếng nói trong miền phổ được biểu diễn như sau: (42)h[m] Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 29 Trong đó, là góc giữa hai biến và.
- Lưu đồ thuật toán Dựa trên cách ước lượng các thông số môi trường ở mục 2.2, 2.3, chúng ta có thể tóm tắt thuật toán thích nghi mô hình HMM cho hệ thống nhận dạng tiếng nói sử dụng xấp xỉ Taylor gồm 8 bước sau: 1.
- Tìm hiểu cách thức tạo một module mới trong hệ thống nhận dạng tiếng nói của Sphinx.
- Chạy thử nghiệm hệ thống Sphinx+VTS trên tập dữ liệu tiếng nói có sẵn, và so sánh kết quả nhận dạng tiếng nói của hệ thống với kết quả nhận dạng tiếng nói của hệ thống Sphinx.
- Công cụ này bao gồm các thành phần chính của một hệ thống nhận dạng tiếng nói với các mô đun trích trọn đặc trưng, mô đun khởi tạo không gian tìm kiếm và giải mã tín hiệu tiếng nói.
- Ứng dụng thuật toán VTS trong bài toán nhận dạng tiếng nói chữ số tiếng Việt Đây chính là thử nghiệm 1 trong luận văn mà tác giả đã nêu ra ở phần Mở đầu.
- Bộ dữ liệu kiểm tra này được cộng mô phỏng với bộ dữ liệu nhiễu ở trên lần lượt với các tỷ lệ tín hiệu trên nhiễu 0dB, 5dB, 10dB, 15dB để tạo ra bộ dữ liệu Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 47 kiểm tra nhiễu phục vụ cho thử nghiệm đánh giá chất lượng thuật toán VTS trong nhận dạng tiếng nói.
- Xây dựng mô hình nhận dạng Xây dựng hai hệ thống nhận dạng tiếng nói sau.
- Hệ thống nhận dạng tiếng nói không áp dụng thuật toán VTS: HMM sạch • Hệ thống nhận dạng tiếng nói có áp dụng thuật toán VTS: HMM + VTS 3.4.2.1.
- Mô hình hệ thống nhận dạng a.
- HMM sạch Hệ thống trên được xây dựng dựa trên thư viện về nhận dạng tiếng nói Sphinx3 được phát triển bởi trường Carnegie Mellon University.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 48 Mô hình: Hình 9: Mô hình hệ thống nhận dạng từ khóa không áp dụng thuật toán VTS b.
- Chạy thử nghiệm và đánh giá kết quả của thuật toán ở thử nghiệm 1 Tác giả tiến hành chạy thử nghiệm hai hệ thống nhận dạng trên cùng bộ dữ liệu kiểm tra, ở các tỷ số tín hiệu trên nhiễu SNR = 0dB, 5dB, 10dB, 15dB: Hệ thống 1: Hệ thống nhận dạng tiếng nói với mô hình HMM sạch Hệ thống 2: Hệ thống nhận dạng tiếng nói với mô hình HMM + VTS Các kết quả nhận dạng sẽ được thể hiện trong bảng và đồ thị dưới đây: Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 51 a.
- Hệ thống nhận dạng có áp dụng thuật toán VTS Bảng 10: WER của hệ thống nhận dạng với HMM + VTS ở thử nghiệm 1 HMM+VTS Noise 0dB 5dB 10dB 15dB airport babble car exhibition restaurant street subway train Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 53 c.
- Nhận xét Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 55 Từ bảng và đồ thị kết quả ở mục a, b, c, chúng ta nhận thấy: Hệ thống nhận dạng được huấn luyện bằng bộ dữ liệu sạch (HMM sạch) (thu trong môi trường không nhiễu hoặc nhiễu rất ít) sẽ giảm chất lượng đáng kể khi hoạt động trong môi trường có nhiễu.
- Để nâng cao chất lượng hệ thống nhận dạng trong môi trường nhiễu, thuật toán thích nghi nhiễu VTS được áp dụng và cho thấy sự cải thiện đáng kể của hệ thống trên hầu hết các loại nhiễu khác nhau.
- Như vậy, thuật toán thích nghi nhiễu VTS làm giảm nhiều tỷ lệ lỗi từ của hệ thống nhận dạng tiếng nói ở SNR thấp (tức là ở môi trường có nhiễu mạnh), do đó thuật toán này nâng cao được chất lượng của hệ thống nhận dạng tiếng nói ở các môi trường có SNR thấp.
- Còn ở các môi trường có SNR cao (môi trường ít nhiễu) thì chất lượng nhận dạng không cải thiện được nhiều so với hệ thống HMM sạch.
- Xây dựng chương trình mô phỏng thuật toán HMM + VTS Tác giả xây dựng chương trình mô phỏng thuật toán VTS chạy offline trong hệ thống nhận dạng tiếng nói chữ số tiếng Việt.
- Cách sử dụng chương trình mô phỏng Nhập cấu hình cho hệ thống nhận dạng tiếng nói chữ số tiếng Việt, gồm có.
- Exc Directory: nhập đường dẫn đến folder chứa các file chạy của hệ thống nhận dạng, bao gồm các module chạy của Sphinx và module VTS Đưa vào câu tiếng nói cần nhận dạng.
- HMM sach: hiển thị kết quả nhận dạng của câu tiếng nói dùng mô hình HMM sạch • HMM + VTS: hiển thị kết quả nhận dạng của câu tiếng nói dùng mô hình HMM + VTS Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 58 CHƯƠNG 4: ỨNG DỤNG TRONG NHẬN DẠNG TỪ KHÓA 4.1.
- Khái niệm về nhận dạng từ khóa Trong nhận dạng tiếng nói, nhận dạng từ khóa là một trường hợp đặc biệt của bài toán nhận dạng tiếng nói liên tục.
- Mô hình của hệ thống nhận dạng từ khóa Một hệ thống nhận dạng từ khóa [8],[10], về cơ bản có cấu trúc tương đương một hệ thống nhận dạng tiếng nói nói chung (Hình 17).
- Mô hình âm học của hệ thống nhận dạng từ khóa chú ý hơn về việc mô hình hóa các từ không phải là từ khóa.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 60 Tín hiệu tiếng nói Mô hình âm học Kết quả nhận dạng Giải mã (Decoding) Mô hình ngôn ngữ Trích chọn đặc trưng.
- Các phương pháp nhận dạng từ khóa Như đã nói ở trên, vấn đề của bài toán nhận dạng từ khóa chủ yếu xoay quanh việc xây dựng mô hình cho các từ bổ xung.
- Theo tiêu chí các kĩ thuật xây dựng mô hình từ bổ xung, hiện nay có một số phương pháp sau cho bài toán nhận dạng từ khóa: 4.3.1.
- Xây dựng mô hình dựa trên kinh nghiệm và hiểu biết về mặt âm học tiếng nói Phương pháp này chủ yếu dựa trên kinh nghiệm của người xây dựng hệ thống về mặt âm học của ngôn ngữ cần nhận dạng.
- Xây dựng mô hình dựa trên hệ thống nhận dạng từ điển lớn 4.3.2.1.
- Xây dựng mô hình cấp từ Mỗi mô hình từ bổ xung tương đương với một mô hình từ không phải là từ khóa trong từ điển nhận dạng của hệ thống nhận dạng từ điển lớn.
- Mô hình ngôn ngữ của hệ thống nhận dạng từ điển lớn được thay đổi cho phù hợp với bài toán nhận dạng từ khóa.
- Ứng dụng thuật toán VTS trong bài toán nhận dạng từ khóa tiếng Việt Đây chính là thử nghiệm thứ 2 trong luận văn mà tác giả đã nêu ra ở phần Mở đầu.
- Xây dựng mô hình nhận dạng Tác giả tiến hành xây dựng hai hệ thống nhận dạng tiếng nói như sau.
- Hệ thống nhận dạng tiếng nói không áp dụng thuật toán VTS: HMM sạch • Hệ thống nhận dạng tiếng nói có áp dụng thuật toán VTS: HMM + VTS 4.4.2.1.
- Mô hình hệ thống nhận dạng Giống thử nghiệm 1.
- 47 mô hình này được sử dụng làm mô hình bổ xung cho hệ thống nhận dạng từ khóa.
- Từ kết quả của thử nghiệm 1, chúng ta nhận thấy thuật toán VTS chỉ cải thiện đáng kể chất lượng nhận dạng ở môi trường có nhiều nhiễu (SNR thấp).
- Nhận xét Từ kết quả ở a, ta nhận thấy với hệ thống nhận dạng từ khóa ở SNR = 0 dB, hệ thống nhận dạng tiếng nói có sử dụng VTS vẫn cải thiện được chất lượng nhận dạng hơn hệ thống HMM sạch.
- Điều đó được thể hiện như sau: Trung bình hệ thống nhận dạng HMM+VTS làm giảm được 1,75% tỷ lệ lỗi từ so với hệ thống HMM sạch.
- Do hệ thống nhận dạng từ khóa được mô hình hóa chưa tốt, chỉ đạt được tỷ lệ nhận dạng đúng là 78%, kém so với với hệ thống nhận dạng tiếng nói chữ số tiếng Việt đạt 98% trên tập dữ liệu kiểm tra không có nhiễu.
- Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 66 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Tác giả đã nghiên cứu và triển khai thành công thuật toán nhận dạng bền vững với nhiễu – Vector Taylor Series, và các thử nghiệm đã cho thấy hệ thống nhận dạng tiếng nói có sử dụng phương pháp VTS đã giảm được tỷ lệ lỗi từ, nhờ đó mà chất lượng nhận dạng tiếng nói được nâng cao so với phương pháp nhận dạng với mô hình huấn luyện sạch.
- Sự cải thiện chất lượng của hệ thống nhận dạng tiếng nói kết hợp thuật toán thích nghi nhiễu VTS càng được thể hiện rõ rệt trong môi trường có SNR thấp, tức là với môi trường có nhiễu càng mạnh thì thuật toán càng được phát huy tác dụng.
- Tuy nhiên, chất lượng nhận dạng của bài toán nhận dạng từ khóa tiếng Việt chưa được cải thiện nhiều.
- Một trong các nguyên nhân quyết định tới yếu tố này, đó là do hệ thống nhận dạng từ khóa được mô hình hóa chưa tốt.
- Xây dựng hệ thống nhận dạng từ khóa có khả năng hoạt động tốt trong môi trường có nhiễu • Tích hợp thuật toán nhận dạng tiếng nói bền vững với nhiễu VTS vào hệ thống nhận dạng online • Triển khai thuật toán trên các thiết bị nhúng, robot Luận văn thạc sỹ khoa học Trần Thị Anh Xuân 67 TÀI LIỆU THAM KHẢO 1

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt