« Home « Kết quả tìm kiếm

Nhận dạng tự động tiếng Việt nói sử dụng bộ công cụ Sphinx


Tóm tắt Xem thử

- 1 TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Nhận dạng tự động tiếng Việt nói sử dụng bộ công cụ Sphinx.
- Nguyễn Hồng Quang Nội dung tóm tắt: a) Lý do chọn đề tài Nhận dạng tiếng nói đóng vai trò quan trọng trong giao tiếp giữa người và máy.
- Hiện nay trên thế giới, lĩnh vực nhận dạng tiếng nói đã đạt được nhiều tiến bộ vượt bậc.
- Tuy nhiên, hầu hết các hệ thống này chủ yếu sử dụng các cơ sở dữ liệu tiếng nói khá hoàn chỉnh (chủ yếu là tiếng Anh).
- Ở Việt Nam, hướng nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói đang được phát triển mạnh mẽ.
- Do tiếng Việt có những đặc thù riêng, nên việc chọn lựa cách tiếp cận bài toán nhận dạng sao cho phù hợp với tiếng Việt là một vấn đề quan trọng và tương đối khó khăn.
- Chính vì thế, với mục đích tìm hiểu và góp phần phát triển chương trình nhận dạng tiếng Việt nói nên tôi đã chọn nghiên cứu đề tài “ Nhận dạng tự động tiếng Việt nói sử dụng bộ công cụ Sphinx”.
- b) Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu.
- Mục đích - Tìm hiểu tổng quan về nhận dạng tiếng nói, và các đặc điểm của tiếng Việt.
- Tìm hiểu về hoạt động của các công cụ được sử dụng trong đề tài để thực hiện nhận dạng tiếng nói: sphinxtrain, CMU SLM , sphinxbase, pocketsphinx.
- Đối tượng nghiên cứu - Nghiên cứu tổng quan về nhận dạng tiếng Việt nói.
- Nghiên cứu mô hình HMM (Hidden Markov Model), mô hình ngôn ngữ.
- Nghiên cứu về các công cụ: sphinxtrain, CMU SLM (Carnegie Mellon University Statistical Language Modeling Toolkit), sphinxbase, pocketsphinx  Phạm vi nghiên cứu - Nghiên cứu về mô hình HMM và công cụ sphinxtrain để huấn luyện mô hình âm học.
- Tìm hiểu về mô hình ngôn ngữ và công cụ tạo mô hình ngôn ngữ thống kê CMU SLM.
- 2 - Tìm hiểu về công cụ sphinxbase, và pocketsphinx để thực hiện nhận dạng tiếng nói.
- c) Các nội dung chính và đóng góp mới  Các nội dung chính - Tóm tắt lý thuyết chung về nhận dạng tiếng nói, và các đặc điểm cơ bản của tiếng Việt.
- Cơ sở lý thuyết: mô hình âm học, mô hình ngôn ngữ.
- Cách cài đặt, hoạt động của các công cụ được sử dụng trong đề tài: sphinxtrain, CMU SLM, sphinxbase, pocketsphinx.
- Các bước xây dựng hệ thống nhận dạng tiếng nói.
- Thử nghiệm với mô hình độc lập ngữ cảnh và mô hình phụ thuộc ngữ cảnh, với mô hình ngôn ngữ bigram và mô hình ngôn ngữ trigram.
- Đánh giá kết quả của hệ thống nhận dạng tiếng nói (%WER - tỷ lệ lỗi nhận dạng từ).Tỷ lệ này càng thấp thì hệ thống nhận dạng tiếng nói càng tốt.
- Các đóng góp mới Tác giả đã sử dụng bộ công cụ mã nguồn mở Sphinx để xây dựng hệ thống nhận dạng tiếng Việt nói với thời gian nhận dạng nhanh, hiệu quả tương đối tốt.
- d) Phương pháp nghiên cứu.
- Nghiên cứu lý thuyết về nhận dạng tiếng nói.
- Nghiên cứu sử dụng bộ công cụ nhận dạng tiếng nói Sphinx.
- Thu âm tiếng Việt nói và thử nghiệm nhận dạng tiếng Việt nói.
- e) Kết luận Luận văn đã nghiên cứu tìm hiểu về bộ công cụ Sphinx gồm: sphinxtrain, CMU SLM, sphinxbase, pocketsphinx.
- Từ đó sử dụng bộ công cụ Sphinx để xây dựng hệ thống nhận dạng tiếng Việt nói: dùng sphinxtrain để huấn luyện mô hình âm học, dùng CMU SLM để xây dựng mô hình ngôn ngữ, dùng sphinxbase để tạo mô hình ngôn ngữ ở dạng file nhị phân, dùng pocketsphinx để thực hiện nhận dạng tiếng nói.
- Và hệ thống nhận dạng đã thử nghiệm với mô hình độc lập ngữ cảnh và mô hình phụ thuộc ngữ cảnh với mô hình ngôn ngữ bigram và mô hình ngôn ngữ trigram, thử nghiệm với 5 giá trị Gauss lần lượt là .
- Kết quả nhận dạng tiếng nói với mô hình độc lập ngữ cảnh với mô hình ngôn ngữ trigram và giá trị Gauss = 4 cho kết quả nhận dạng tốt nhất (%WER = 29.5

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt