« Home « Kết quả tìm kiếm

Mạng nơ ron sâu và ứng dụng vào nhận dạng Tiếng Việt nói


Tóm tắt Xem thử

- 1 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Mạng Nơ ron sâu và ứng dụng vào nhận dạng tiếng Việt nói Tác giả luận văn: Nguyễn Thị Thanh Khóa: 2013B Người hướng dẫn: TS.
- Nguyễn Hồng Quang Từ khóa (Keyword): Nhận dạng tiếng nói.
- tiếng Việt nói.
- bộ công cụ nhận dạng Kaldi.
- mô hình ngôn ngữ.
- từ điển phát âm, mạng nơ ron sâu.
- Nội dung tóm tắt: a) Lý do chọn đề tài - Nhận dạng tiếng Việt nói được ứng dụng trong nhiều lĩnh vực như: tổng đài tự động.
- Mạng Nơ ron là một công cụ có khả năng giải quyết được nhiều bài toán khó, thực tế những nghiên cứu về mạng Nơ ron đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng.
- Hiện nay đã có nhiều nghiên cứu cho thấy sự vượt bậc của mạng Nơ ron sâu.
- Các nghiên cứu gần đây đã ứng dụng thành công kiến trúc mạng Nơ ron sâu trong mô hình ngôn ngữ.
- Ứng dụng mạng Nơ ron sâu vào nhận dạng tiếng nói bộ từ vựng lớn với bộ dữ liệu lớn hơn bất kỳ hệ thống nào trước đây.
- Công ty Google hiện đang sử dụng các mạng Nơ ron để nhận dạng tiếng nói cải thiện được 20-25% độ chính xác.
- Trong luận văn này, bộ công cụ Kaldi được chọn vì có ưu điểm chính là hiện đại, linh hoạt, mã nguồn được cấu trúc rõ ràng.
- Và hơn thế nữa, Kaldi cho chất lượng nhận dạng cao hơn các bộ công cụ nhận dạng tiếng nói khác như HTK, Sphinx hay Alize… Kết quả từ các thí nghiệm của các nhà khoa học cho thấy Kaldi chạy nhanh hơn so với tất cả các bộ công cụ nhận dạng khác.
- Kaldi huấn luyện và giải mã theo kỹ thuật đường ống bao gồm các kỹ thuật cao cấp nhất, điều này cho phép hệ thống đạt kết quả tốt nhất trong thời gian ngắn.
- Thời gian cho việc thiết lập, chuẩn bị, chạy và tối ưu hóa cho các bộ công cụ lớn nhất với HTK, ít hơn là Sphinx và ít nhất là Kaldi.
- Bộ công cụ 2 nhận dạng họ Sphinx (PocketSphinx và Sphinx-4) không bao gồm tất cả các kỹ thuật tích hợp trong một như Kaldi.
- HTK là bộ công cụ khó nhất, mặc dù các kết quả thu được tương tự với Sphinx, tuy nhiên thiết lập hệ thống cần tốn thời gian.
- So sánh với các bộ nhận dạng khác, hiệu năng vượt trội của Kaldi được xem như là cuộc cách mạng trong công nghệ nhận dạng tiếng nói mã nguồn mở.
- Hiện tại đã có một số nghiên cứu về nhận dạng tiếng Việt nói, tuy nhiên đa phần mới chỉ sử dụng bộ công cụ HTK.
- Do vậy mục tiêu nghiên cứu của luận văn là xây dựng bộ công cụ nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi có tích hợp mạng nơ ron sâu, thử nghiệm các kỹ thuật tiên tiến trong Kaldi để đánh giá khả năng của Kaldi với tiếng Việt.
- Nhu cầu về thử nghiệm phương pháp nhận dạng tiếng Việt nói sử dụng mạng Nơ ron sâu đã trở nên cấp bách và cần thiết.
- b) Mục đích nghiên cứu của luận văn.
- Nghiên cứu về mạng Nơ ron sâu và lĩnh vực học sâu (Deep Learning.
- Nghiên cứu về nguyên lý và các thành phần của một hệ thống nhận dạng tiếng nói và ứng dụng vào nhận dạng tiếng Việt nói.
- Xây dựng chương trình nhận dạng tiếng Việt nói có tích hợp mạng Nơ ron sâu.
- Kiểm tra và đánh giá hiệu suất nhận dạng của hệ thống.
- Đối tượng nghiên cứu.
- Nghiên cứu, tìm hiểu lý thuyết và ứng dụng của mạng Nơ-ron sâu.
- Nghiên cứu, tìm hiểu về bộ công cụ nhận dạng tiếng nói Kaldi.
- Nghiên cứu, xây dựng hệ thống nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi có tích hợp mạng nơ ron sâu.
- c) Nội dung tóm tắt đề tài Đề tài được chia làm 4 chương cụ thể như sau: Chương I: Cơ sở lý thuyết Chương này tập trung giới thiệu về mạng nơ ron sâu, lĩnh vực học sâu và các khái niệm cơ bản, cấu trúc của hệ thống nhận dạng tiếng nói.
- Chương II: Phương pháp thực hiện và công cụ sử dụng 3 Trên cơ sở nghiên cứu lý thuyết, tìm hiểu về mạng Nơ ron sâu và hệ thống nhận dạng tiếng nói, phương pháp thực hiện đề tài được lựa chọn cụ thể như sau.
- Đặc trưng được sử dụng để nhận dạng: đặc trưng MFCC.
- Mô hình nền tảng sử dụng huấn luyện: mô hình GMM.
- Công cụ sử dụng: máy ảo Vmware, môi trường Linux, hệ điều hành CentOS 7.0, Kaldi Toolkit, ngôn ngữ lập trình Python.
- Dữ liệu thử nghiệm: Dữ liệu tiếng Việt - Ngôn ngữ lập trình: Shell, Python, Perl.
- Chương III: Nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi tích hợp mạng nơ ron sâu.
- Chương này giới thiệu sơ đồ tổng quan và giải thích các thành phần của hệ thống nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi.
- Nội dung chi tiết đi sâu vào các bước thực hiện xây dựng hệ thống nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi.
- Chương IV: Kết quả thử nghiệm Trong đề tài này, thử nghiệm các phương pháp huấn luyện khác nhau được hỗ trợ bởi Kaldi.
- Các trọng số của mô hình ngôn ngữ cũng được xem xét và đánh giá.
- Các thử nghiệm cho thấy bộ công cụ Kaldi cho kết quả nhận dạng rất tốt với tiếng Việt nói.
- Ngoài ra trọng số của mô hình ngôn ngữ là một tham số quan trọng khi xây dựng hệ thống.
- d) Phương pháp nghiên cứu.
- Nghiên cứu lý thuyết về nhận dạng tiếng nói.
- Nghiêm cứu về máy học và mạng nơ ron sâu trong nhận dạng tiếng nói.
- Nghiên cứu sử dụng bộ công cụ Kaldi, ngôn ngữ lập trình Python trên môi trường Linux trong nhận dạng tiếng nói.
- Thử nghiệm nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi có tích hợp mạng nơ ron sâu với số lượng 35 người nói, 4375 câu nói.
- e) Kết luận Đề tài nghiên cứu đã mô tả phương pháp xây dựng hệ thống nhận dạng tiếng Việt nói trên nền bộ công cụ Kaldi tích hợp mạng nơ ron sâu.
- Bài nghiên cứu đã thử 4 nghiệm các phương pháp huấn luyện khác nhau được hỗ trợ bởi Kaldi, cho kết quả tốt nhất với phương pháp huấn luyện sử dụng mạng nơ ron sâu.
- Ngoài ra trọng số của mô hình ngôn ngữ là một tham số quan trọng khi xây dựng hệ thống.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt