« Home « Kết quả tìm kiếm

Mạng nơ ron sâu và ứng dụng vào nhận dạng Tiếng Việt nói


Tóm tắt Xem thử

- Mạng Nơ ron sâu.
- Mạng nơ ron sâu cho mô hình âm học trong nhận dạng tiếng nói .
- Huấn luyện mạng Nơ ron sâu [13.
- Hệ thống nhận dạng tiếng nói [20.
- Cấu trúc của một hệ thống nhận dạng tiếng nói.
- Phân loại hệ thống nhận dạng tiếng nói.
- Các phương pháp nhận dạng tiếng nói.
- Các ứng dụng của nhận dạng tiếng nói.
- Mô hình GMM.
- Bộ công cụ nhận dạng tiếng nói Kaldi [2.
- NHẬN DẠNG TIẾNG VIỆT NÓI TRÊN NỀN BỘ CÔNG CỤ KALDI TÍCH HỢP MẠNG NƠ RON SÂU.
- Mô hình thư mục làm việc trong Kaldi.
- Mô hình hệ thống nhận dạng tiếng Việt nói với bộ công cụ Kaldi.
- Mô hình âm học với DNN.
- Huấn luyện mô hình âm học.
- Kịch bản mô hình âm học.
- Tạo mô hình ngôn ngữ.
- Thiết lập huấn luyện song song.
- Sắp xếp và huấn luyện Monophone.
- Sắp xếp và huấn luyện Triphone (Tri1.
- Huấn luyện với mạng nơ ron sâu (tri4_DNN.
- Kết quả thực hiện với các mô hình huấn luyện.
- Kết quả thực hiện với các trọng số mô hình ngôn ngữ khác nhau.
- 62 Bảng 3.7: Các phương thức huấn luyện của hệ thống.
- 88 Bảng 4.2: Bảng kết quả với các trọng số mô hình ngôn ngữ khác nhau.
- 12 Hình 1.8: Đồ thị lỗi huấn luyện.
- 20 Hình 1.13: Cấu trúc hệ thống nhận dạng tiếng nói.
- 46 Hình 2.4: Hàm mật độ xác suất của mô hình GMM.
- 49 Hình 3.1: Các bước thực hiện xây dựng hệ thống nhận dạng tiếng nói trên nền bộ công cụ Kaldi.
- 65 Hình 3.7: Mô hình nhận dạng tiếng nói với bộ công cụ Kaldi.
- 66 Hình 3.8: Hệ thống phân cấp các mô hình âm học được huấn luyện.
- Biểu đồ WER thể hiện qua các mô hình huấn luyện.
- Các nghiên cứu gần đây đã ứng dụng thành công kiến trúc mạng Nơ ron sâu trong mô hình ngôn ngữ.
- Nghiêm cứu về máy học và mạng nơ ron sâu trong nhận dạng tiếng nói.
- Huấn luyện autoencoder đầu tiên (t = 1.
- Huấn luyện autoencoder thứ hai t = 2 (các kết nối màu xanh).
- Huấn luyện RBM t=2 thứ hai.
- Học sâu là một lớp các thuật toán huấn luyện máy học mà.
- Mạng Nơ ron nhân tạo được lấy ý tưởng từ những mô hình sinh học năm 1959 bởi những người đoạt giải Nobel David H.
- Nhiều mạng Nơ ron nhân tạo có thể được xem như là mô hình tầng của các loại tế bào lấy ý tưởng từ những quan sát sinh học.
- Mô hình sâu của Hinton et al.
- Nó sử dụng một máy Boltzmann Restricted (Smolensky, 1986) để mô hình hóa mỗi lớp mới của các tham số mức cao hơn.
- Khi đủ nhiều lớp đã được huấn luyện các kiến trúc sâu có thể được sử dụng như một mô hình generative theo cách tái tạo dữ liệu khi lấy mẫu dưới (down) mô hình từ kích hoạt các tham số mức cao nhất.
- Mạng Nơ ron sâu 1.1.4.1.
- Tương tự như mạng nơ ron nhân tạo (ANN) nông, DNN có thể mô hình hóa mối quan hệ phi tuyến phức tạp.
- Mạng nơ ron sâu cho mô hình âm học trong nhận dạng tiếng nói [12] Hầu hết các hệ thống nhận dạng tiếng nói hiện nay đều sử dụng mô hình Markov ẩn (HMM) để đối phó với sự thay đổi theo thời gian của tiếng nói và sử dụng 30 mô hình Gauss để xác định các trạng thái của mỗi HMM phù hợp với một khung hoặc một cửa sổ của khung của các hệ số biểu diễn cho các đầu vào âm học.
- Mạng nơ ron sâu (DNN) có nhiều lớp và được huấn luyện sử dụng phương pháp mới được chứng minh hiệu quả hơn GMM trên rất nhiều tiêu chí nhận dạng tiếng nói.
- Sử dụng phương pháp học mới, một số nhóm nghiên cứu đã chỉ ra rằng DNN có thể tốt hơn GMM ở các mô hình âm học cho nhận dạng tiếng nói trên nhiều tập dữ liệu bao gồm các tập dữ liệu lớn có vốn từ vựng lớn.
- Mô hình sinh mẫu được huấn luyện mà không sử dụng bất cứ thông tin nào về trạng thái HMM mà mô hình âm học sẽ cần cho mô hình discriminate.
- Gần đây CNN đã được áp dụng để xây dựng mô hình âm học cho nhận dạng tiếng nói tự động (ASR) và chúng thực hiện thành công hơn các mô hình trước đó.
- Tính năng này rất quan trọng cho mô hình âm học chất lượng cao.
- DNN dễ bị overfitting vì có thêm các lớp trừu tượng, khiến cho mô hình ít phụ thuộc dữ liệu huấn luyện.
- Bộ thích nghi: nhận thông tin từ bộ giải mã và thay đổi các tham số của các mô hình âm học, mô hình ngôn ngữ nhằm nâng cao kết quả nhận dạng.
- Phương pháp nhận dạng mẫu.
- 40 Bước 2: Nhận dạng.
- Mô hình sử dụng huấn luyện: mô hình GMM.
- Mô hình GMM Mô hình GMM là một dạng mô hình thống kê được xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học.
- Bộ công cụ nhận dạng tiếng nói Kaldi [2] 2.4.1.
- Cấu trúc bộ công cụ Kaldi [4] Kaldi gồm một thư viện, các bộ chương trình dòng lệnh và kịch bản cho các mô hình âm học.
- Kaldi triển khai nhiều bộ giải mã để đánh giá các mô hình âm học, sử dụng huấn luyện Viterbi cho việc ước lượng mô hình âm học.
- Thanh điệu của mỗi âm tiết sẽ được xác định trong quá trình nhận dạng dựa vào mô hình ngôn ngữ.
- Bộ công cụ nhận dạng tiếng nói Kaldi [2] 3.3.1.
- SRILM: Đây là một bộ công cụ mô hình ngôn ngữ.
- Mô hình hệ thống nhận dạng tiếng Việt nói với bộ công cụ Kaldi Sơ đồ tổng quan của hệ thống nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi được mô tả ở hình 3.7.
- 66 Mô hình GMM(GMM Models)Đồ thị giải mã(Decoding Graph)Tiếng nói huấn luyệnVăn bảnTiếng nói kiểm thửVăn bảnCông cụ huấn luyện Kaldi(Kaldi Training Tools) Bộ giải mã Kaldi(Kaldi Decoder) Hình 3.7: Mô hình nhận dạng tiếng nói với bộ công cụ Kaldi Trong mô hình này, mô hình âm học (AM) là trái tim của nhận dạng tiếng nói.
- Thông tin ẩn của từ (thời gian) liên kết trong một cách phát âm tạo ra mô hình huấn luyện âm học với nhiều thách thức.
- Mô hình âm học với DNN Trong hệ thống DNN-HMM hybrid, DNN được huấn luyện để cung cấp dự đoán xác suất hậu nghiệm cho các trạng thái HMM.
- Mô hình âm học DNN huấn luyện các tham số thu được bằng cách ghép 7 khung với nhau (1 khung hiện tại và 3 khung mỗi bên) của 13 chiều MFCC và ánh xạ tới 40 chiều sử dụng phương pháp phân tích biệt thức tuyến tính (LDA).
- Mạng nơ ron được huấn luyện để dự đoán xác suất của các context-dependent State.
- Một mô hình GMM biểu diễn các tham số như tổng các trọng số của nhiều Gauss phân tán.
- Huấn luyện mô hình âm học 3.4.1.
- Kịch bản mô hình âm học Các bản ghi và phiên âm của chúng từ tập dữ liệu huấn luyện được sử dụng cho mô hình âm học.
- Các mô hình âm học được đánh giá trên tập kiểm thử.
- Việc giải mã tiếng nói trong tập kiểm thử luôn được thực hiện với các tham số tương tự nhau, 69 do đó các mô hình âm học khác nhau có thể so sánh với nhau.
- Bảng 3.7 liệt kê các mô hình âm học được huấn luyện trong kịch bản.
- Đầu tiên, một mô hình mono-phone được huấn luyện sử dụng bộ tham số MFCC (Mel Frequency Cepstral Coefficient) cùng với các tham số ∆ và.
- Sau đó, chúng huấn luyện lại mô hình triphone (tri1a).
- Một phần của quá trình kết thúc bởi huấn luyện mô hình MFCC.
- sử dụng LDA+MLTT để huấn luyện mô hình âm học (tri2b).
- Sử dụng mô hình thứ ba tri2b được huấn luyện Discriminative (hay còn gọi là mô hình có điều kiện), sử dụng LDA+MLTT+SAT để huấn luyện mô hình tri3b và sử dụng công thức DNN Hybrid để thực hiện huấn luyện mạng nơ ron sâu (tri4_DNN) sử dụng các phương pháp.
- /test_build2 chứa mô hình ngôn ngữ zerogram cho tập kiểm thử, được ước lượng sử dụng bộ công cụ SRILM.
- Tạo mô hình ngôn ngữ Sử dụng dòng lệnh sau để tạo mô hình ngôn ngữ, với đầu vào.
- Dòng lệnh thực hiện huấn luyện triphone như sau.
- Các kịch bản yêu cầu để xây dựng HCLG: 82 - Mô hình ngôn ngữ (LM.
- Mô hình âm học (AM.
- Mô hình âm học.
- Một tập tin cấu hình cho các tham số tiếng nói và các tham số biến đổi với các thiết lập tương tự được sử dụng cho huấn luyện AM (mô hình âm học.
- Sử dụng mô hình âm học được huấn luyện được mô tả ở trên cho giải mã các phiên âm từ tập dữ liệu kiểm thử.
- Mô hình ngôn ngữ bigram được ước lượng từ các phép biến 84 đổi dữ liệu huấn luyện.
- Các mô hình ngôn ngữ bigram chứa 1075 unigram và 3517 bigram cho tiếng Việt.
- Mô hình ngôn ngữ zerogram bị được giới hạn 1076 từ tiếng Việt.
- Tham số LMW thiết lập trọng số của LM, tức là nó quy định có bao nhiêu LM (mô hình ngôn ngữ) được sử dụng cho mô hình âm học trong việc giải mã.
- Thực hiện giải mã các mô hình âm học với các dòng lệnh sau: for s in $TEST_SETS .
- Trong đó: mô hình âm học mono, tri1, tri2a, tri2b, được huấn luyện generative.
- Kết quả thực hiện với các mô hình huấn luyện Phần này trình bày các kết quả thử nghiệm hệ thống nhận dạng tiếng Việt nói với phương pháp huấn luyện âm học khác nhau.
- Bảng 4.1 biểu diễn kết quả các mô hình âm học.
- Biểu đồ WER thể hiện qua các mô hình huấn luyện Kết quả cho thấy các phương pháp huấn luyện discriminative vượt trội so với các mô hình âm học generative, tham số LDA + MLTT cũng hiệu quả hơn việc sử dụng tham số.
- Kết quả thực hiện với các trọng số mô hình ngôn ngữ khác nhau Thử nghiệm với LMW lần lượt bằng 9, 10 và 15.
- Như vậy việc chọn lựa một trọng số phù hợp cho mô hình ngôn ngữ cũng là một trong các tham số quan trọng của hệ thống nhận dạng tiếng Việt nói.
- Ngoài ra trọng số của mô hình ngôn ngữ là một tham số quan trọng khi xây dựng hệ thống

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt