« Home « Kết quả tìm kiếm

Xây dựng giao tiếp tiếng nói với phần mềm kế toán và quản trị doanh nghiệp sử dụng công cụ SPHINX.

Tóm tắt Xem thử dlib.hust.edu.vn Tải xuống

- 6 CHƢƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI.
- Quá trình nhận dạng ngôn ngữ.
- Các mô hình trong nhận dạng tiếng nói.
- Mô hình Markov ẩn.
- Mô hình Markov.
- 13 CHƢƠNG 2 GIẢI PHÁP TÍCH HỢP NHẬN DẠNG TIẾNG NÓI VÀO PHẦN MỀM KẾ TOÁN VÀ QUẢN TRỊ DOANH NGHIỆP FAB – EIS.
- Giải pháp tích hợp nhận dạng tiếng nói vào phần mềm kế toán và quản trị doanh nghiệp FAB – EIS.
- Mô hình nguôn ngữ - LanguageModel.
- Mô hình âm học AcousticModel.
- 39 CHƢƠNG 4 TÍCH HỢP NHẬN DẠNG TIẾNG NÓI VÀO PHẦN MỀM KẾ TOÁN VÀ QUẢN TRỊ DOANH NGHIỆP FAB - EIS.
- Xác định phạm vi nhận dạng.
- Xây dựng mô hình ngôn ngữ.
- 41 4.2.1 Xây dựng mô hình ngữ pháp.
- 41 4.2.2 Xây dựng mô hình ngôn ngữ thống kê sử dụng bộ công cụ CMU.
- Huấn luyện mô hình âm học.
- Tích hợp nhận dạng tiếng nói vào phần mềm.
- Kết quả nhận dạng.
- 16 Bảng 3 Danh sách từ vựng nhận dạng.
- 40 Bảng 4 Mô hình ngôn ngữ định dạng JSGF.
- 41 Bảng 5 Mô hình ngôn ngữ sử dụng CMU Toolkit.
- 43 Bảng 7 Tập lệnh xây dựng mô hình ngôn ngữ DMP.
- 67 Bảng 26 Cấu hình mô hình âm học.
- 67 Bảng 27 Mã nguồn menu kích hoạt nhận dạng tiếng nói.
- 69 Bảng 28 Mã nguồn nhận dạng tiếng nói.
- 71 Bảng 29 Kết quả nhận dạng.
- 9 Hình 2 Mô hình nhận dạng tiếng nói.
- 10 Hình 3 Mô hình Markov ẩn.
- 29 Hình 15 Sơ đồ khối sử dụng kỹ thuật Hook xây dựng chương trình nhận dạng tiếng nói.
- 68 Hình 35 Sơ đồ khối cài đặt nhận dạng tiếng nói.
- 70 Hình 36 Giao diện nhận dạng tiếng nói.
- Tôi xin chân thành cảm ơn! 8 CHƢƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 1.1.
- Lịch sử phát triển Các nghiên cứu nhận dạng tiếng nói được bắt đầu từ thập niên 40 của thế kỉ 19, với sự khởi nguồn của Bell Laboratories.
- Năm 1952, họ đã cho ra đời hệ thống Audrey có khả năng nhận dạng chữ số từ một nguồn đơn.
- Năm 1962, IBM cho ra đời máy Shoebox có khả năng nhận dạng 16 từ trong tiếng Anh.
- Thành công bước đầu này đã tạo một nền tảng cho sự phát triển của công nghệ nhận dạng tiếng nói.
- Trong thập niên tiếp theo, những năm 80, nhận dạng tiếng nói bước sang một hướng tiếp cận mới giúp tập từ vựng nhận dạng có thể lên đến hàng nghìn từ, thậm chí có khả năng nhận dạng không giới hạn dựa trên thống kê, mà nổi bật nhất là mô hình Markov ẩn.
- Trong giai đoạn này, nhận dạng tiếng nói cũng bắt đầu được đưa vào các ứng dụng thương mại.
- Những năm 90, hệ thống nhận dạng tiếng nói tiếp tục được mở rộng để có khả năng nhận dạng những tập từ vựng lớn.
- Những năm 2000, nhận dạng tiếng nói đã có thể đạt đến độ chính xác 80%, đến cuối thập niên này, độ chính xác dường như đã đạt đến giới hạn.
- Khả năng nhận dạng tiếng nói được trang bị trên nhiều phần mềm khác nhau như các phiên bản của hệ điều hành Windows, Mac OS, Linux… và được đưa lên cả các thiết bị di động.
- Các sản phẩm nổi tiếng nhận dạng tiếng nói hiện nay như Siri, Google’s Voice Search đã và đang đem đến những trải nghiệm mới trong giao tiếp người – máy.
- Đây là một thành phần quan trọng trong quá trình nhận dạng tiếng nói, giới hạn khả năng kết hợp giữa các âm.
- Quá trình nhận dạng ngôn ngữ Phương pháp nhận dạng tiếng nói thông thường bắt đầu từ việc cố gắng xây dựng một hệ cơ sở dữ liệu tiếng nói, trong đó lưu trữ những đặc trưng của tiếng nói phục vụ cho quá trình nhận dạng sau này.
- Mô hình là một khái niệm nữa cần dùng trong nhận dạng ngôn ngữ, đây là biểu diễn toán học của tiếng nói, hàm chứa các đặc trưng phổ biến của ngôn ngữ nói.
- Quá trình này có thể chiếm rất nhiều thời gian, do đó tối ưu quá trình tìm kiếm là giúp tăng khả năng đáp ứng của chương trình nhận dạng tiếng nói.
- Các mô hình trong nhận dạng tiếng nói Có ba mô hình được sử dụng trong nhận dạng tiếng nói.
- Đây là mô hình độc lập ngữ cảnh.
- Mô hình ngôn ngữ: được sử dụng để giới hạn các từ tìm kiếm.
- Ba mô hình trên kết hợp đồng thời với nhau trông một máy (chương trình) nhận dạng tiếng nói.
- Mô hình Markov ẩn 1.5.1.
- Mô hình Markov ẩn là một chuỗi Markov mà trạng thái chỉ có thể quan sát được một phần.
- Ứng dụng phổ biến nhất của mô hình Markov ẩn là nhận dạng tiếng nói ở đó dữ liệu âm thanh là quan sát được và văn bản được nói là không quan sát được, ta có thể sử dụng các giải thuật nêu trên để tìm ra các từ được nói trong dữ liệu âm thanh.
- Các tham số của mô hình được rút ra có thể sử dụng để thực hiện các phân tích tiếp theo, ví dụ cho các ứng dụng nhận dạng mẫu.
- Hình 3 Mô hình Markov ẩn Chính nhờ các đặc tính đó, mô hình Markov ẩn được sử dụng hiệu quả cho quá trình nhận dạng tiếng nói.
- 14 CHƢƠNG 2 GIẢI PHÁP TÍCH HỢP NHẬN DẠNG TIẾNG NÓI VÀO PHẦN MỀM KẾ TOÁN VÀ QUẢN TRỊ DOANH NGHIỆP FAB – EIS 2.1.
- Quản trị - Module quản trị không thuộc nghiệp vụ Quản trị doanh nghiệp, cung cấp tiện ích bảo mật cho hệ thống thông qua khả năng phân quyền cho người sử dụng, thêm, xóa, sửa người sử dụng… Trong quá trình làm luận văn, bên cạnh việc tích hợp khả năng nhận dạng tiếng nói, tác giả đã trực tiếp tham gia xây dựng các module.
- Giải pháp tích hợp nhận dạng tiếng nói vào phần mềm kế toán và quản trị doanh nghiệp FAB – EIS Để tích hợp khả năng nhận dạng tiếng nói cho phần mềm kế toán và quản trị doanh nghiệp, tác giả đã nghiên cứu và đề xuất hai giải pháp.
- Ứng thủ tục Hook trong xây dựng giao tiếp tiếng nói với phần mềm kế toán và quản trị doanh nghiệp Trong giải pháp này, phần mềm nhận dạng tiếng nói được xây dựng chạy độc lập với phần mềm kế toán quản trị doanh nghiệp.
- Các kết quả nhận dạng sẽ được chuyển thành các lệnh tương ứng, sau đó sử dụng kỹ thuật Hook gửi thông điệp thích hợp đến phần mềm kế toán và quản trị doanh nghiệp nhằm thực hiện thao tác người dùng mong muốn.
- Vì xây dựng như một sản phẩm riêng biệt, nên chương trình nhận dạng tiếng nói phải sử dụng kỹ thuật Hook toàn cục để có thể gửi các thông điệp sang một chương trình khác.
- Sơ đồ dưới đây mô phỏng quá trình nhận dạng sử dụng kỹ thuật Hook.
- Xây dựng giao tiếp tiếng nói nhƣ một module thuộc phần mềm kế toán và quản trị doanh nghiệp Theo giải pháp này, khả năng nhận dạng tiếng nói được xây dựng thành một module riêng và được tích hợp như một thành phần của phần mềm kế toán và quản trị doanh nghiệp FAB – EIS.
- Do phần mềm FAB – EIS được xây dựng sử dụng ngôn ngữ lập trình Java, nên việc sử dụng công cụ SPHINX hỗ trợ rất lớn cho quá trình xây dựng khả năng nhận dạng tiếng nói của phần mềm.
- ví dụ khi cài đặt Bắt đầu Nhận dạng tiếng nói Chuyển tiếng nói thành thông điệp Chuyển thông điệp tới phần mềm FAB - EIS Người dùng dừng nhận dạng? Kết thúc.
- Giải pháp thứ hai xây dựng khả năng nhận dạng tiếng nói như một module trong phần mềm kế toán và quản trị doanh nghiệp FAB – EIS tuy phải can thiệp trực tiếp vào mã nguồn phần mềm, nhưng sự can thiệp này tương đối ít chỉ một đoạn nhỏ để kích hoạt khả năng nhận dạng và xử lý lệnh mà người dùng phát ra.
- Giải pháp cũng giúp hạn chế công sức lập trình rất nhiều khi ngôn ngữ lập trình Java có công cụ hỗ trợ nhận dạng tiếng nói hữu hiệu là SPHINX.
- Dựa trên những lý do đó, tác giả đã lựa chọn giải pháp tích hợp trực tiếp khả năng nhận dạng tiếng nói như một module của phần mềm kế toán và quản trị doanh nghiệp FAB – EIS.
- Linguist: lưu trữ, xử lý các thông tin về ngôn ngữ như từ điển âm học, mô hình ngôn ngữ, mô hình âm học.
- Linguist cũng sử dụng từ điển Dictionary để ánh xạ các từ trong mô hình ngôn ngữ với các phần tử tương ứng trong mô hình âm học AcousticModel.
- Linguist gồm 3 thành phần pluggable: Mô hình ngôn ngữ - LanguageModel, Từ điển – Dictionary, và mô hình âm học – AcousticModel.
- Mô hình nguôn ngữ - LanguageModel Mô hình ngôn ngữ biểu diễn kiến trúc ngôn ngữ ở mức từ vựng, có thể được cài đặt theo nhiều cách khác nhau.
- Mô hình ngôn ngữ trong Sphinx 4 hỗ trợ nhiều định dạng khác nhau.
- LMGrammar: định nghĩa ngữ pháp dựa trên một mô hình ngôn ngữ thống kê.
- SimpleNGramModel: cung cấp mô hình ngôn ngữ ASCII N – Gram theo định dạng ARPA.
- Từ điển - Dictionary Từ điển cung cấp phương thức phát âm cho các từ của mô hình ngôn ngữ.
- Mô hình âm học AcousticModel Mô hình âm học cung cấp ánh xạ giữa các thành phần tiếng nói và mô hình Markov ẩn.
- Cách thức biểu diễn này giúp mô hình âm học có khả năng hỗ trợ mô hình Markov ẩn với nhiều kiến trúc khác nhau.
- FlatLinguist: Phù hợp với các tác vụ nhận dạng sử dụng ngữ pháp phi ngữ cảnh (CFG), ngữ pháp hữu hạn trạng thái (FSG), máy hữu hạn trạng thái (FST) và mô hình ngôn ngữ N-Gram nhỏ.
- LexTreeLinguist: Phù hợp với các tác vụ nhận dạng tập từ vựng lớn sử dụng mô hình N-Gram.
- Decoder Vai trò chính của Sphinx4 Decoder là đưa ra kết quả nhận dạng dựa trên việc sử dụng các đặc trưng từ FrontEnd kết hợp với đồ thị tìm kiếm SearchGraph từ Linguist.
- Decoder chỉ đơn giản yêu cầu SearchManager nhận dạng tậm các frame đặc trưng.
- SimpleBreadthFirstSearchManager - WordPruningBreadthSearchManager - BushderbySearchManager - ParallelSearchManager 40 CHƢƠNG 4 TÍCH HỢP NHẬN DẠNG TIẾNG NÓI VÀO PHẦN MỀM KẾ TOÁN VÀ QUẢN TRỊ DOANH NGHIỆP FAB - EIS 4.1.
- Xây dựng mô hình ngôn ngữ Có hai cách thức để xây dựng mô hình ngôn ngữ.
- JSGF được sử dụng phổ biến trong nhận dạng ngôn ngữ nhằm định nghĩa cú pháp của ngôn ngữ cần nhận dạng.
- Dưới đây là nội dung file erp.gram định nghĩa mô hình ngôn ngữ được sử dụng trong chương trình.
- Bảng 4 Mô hình ngôn ngữ định dạng JSGF #JSGF V1.0.
- 4.2.2 Xây dựng mô hình ngôn ngữ thống kê sử dụng bộ công cụ CMU Một phương pháp khác để xây dựng mô hình ngôn ngữ là dựa trên thống kê.
- Bộ công cụ CMU cung cấp cho chúng ta khả năng xây dựng mô hình ngôn ngữ một cách nhanh chóng, đơn giản.
- Ghi âm file mẫu Đây là bước quan trọng trong quá trình xây dựng hệ nhận dạng tiếng nói, đây là bước đòi hỏi nhiều công sức nhất của người xây dựng hệ thống.
- Tích hợp nhận dạng tiếng nói vào phần mềm Sau khi thực hiện quá trình huấn luyện ở trên ta thu được các file cần thiết để tích hợp khả năng nhận dạng tiếng nói cho phần mềm như sau.
- Cấu hình file mô hình ngôn ngữ 67 Bảng 24 Cấu hình ngôn ngữ - Cấu hình từ điển Bảng 25 Cấu hình từ điển - Cấu hình mô hình âm học Bảng 26 Cấu hình mô hình âm học 68 Để người dùng có thể kích hoạt chức năng nhận dạng tiếng nói, FAB – EIS được tích hợp thêm một menu tương tác sử dụng đoạn code sau.
- amEntrySpeech = new RibbonApplicationMenuEntryPrimary(new IconWrapperResizableIcon(speechIcon), "Kích hoạt nhận dạng tiếng nói", new ActionListener.
- Chức năng nhận dạng tiêng nói được thực hiện qua nhiều bước khác nhau.
- Hình 35 Sơ đồ khối cài đặt nhận dạng tiếng nói 71 Mã nguồn Bảng 28 Mã nguồn nhận dạng tiếng nói ConfigurationManager cm.
- Sau khi xây dựng thành công khả năng nhận dạng tiếng nói, giao diện mới của FAB – EIS có dạng như sau.
- Hình 36 Giao diện nhận dạng tiếng nói Sau khi kích hoạt khả năng nhận dạng tiếng nói, người dùng có thể giao tiếp với phần mềm FAB – EIS sử dụng tiếng nói trong các trường hợp sau.
- Bước đầu tiếp cần với xử lý tiếng nói, cách thức xây dựng một hệ nhận dạng tiếng nói dựa trên bộ công cụ Sphinx 4 - Tích hợp thành công khả năng nhận dạng tiếng nói cho phần mềm kế toán và quản trị doanh nghiệp FAB – EIS, tạo nên sự trải nghiệm mới trong khả năng giao tiếp người – máy.
- Phạm vi nhận dạng chưa rộng: hiện tại hệ thống chỉ có khả năng nhận dạng 20 lệnh, và 10 chữ số.
- Xây dựng tập mẫu lớn, giảm tạp âm nhằm nâng cao hiệu quả nhận dạng.
- Mở rộng khả năng nhận dạng tiếng nói không phụ thuộc người nói 76 DANH MỤC TÀI LIỆU THAM KHẢO 1

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt

Xây dựng giao tiếp tiếng nói với phần mềm kế toán và quản trị doanh nghiệp sử dụng công cụ SPHINX.

CHỦ ĐỀ LIÊN QUAN