« Home « Kết quả tìm kiếm

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron


Tóm tắt Xem thử

- BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ ĐỀ TÀI Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Học viên:Bùi Văn Công Chuyên ngành:Đo lường và các hệ thống điều khiển Khoa Điện- Đại học Bách Khoa Hà NộiGiáo viên hướng dẫn:PGS.
- Phương án xây dựng chương trình Vấn đề Xử lý tín hiệu đầu vào Thiết kế và vận hành mạng nơ-ron .
- Phương pháp nhận dạng bằng mạng nơ-ron nhân tạo ANN a.
- Chạy chương trình nhận dạng tiếng nói Kết quả chạy chương trình .
- 1: Mô hình hệ thống nhận dạng tiếng nói Hình 1.
- 6: Cấu trúc nơ-ron : (a) không xắp xếp.
- 7: (a) nơ-ron thường, (b) nơ-ron sigma-pi Hình 3.
- 3: Mô hình nhận dạng Hình 4.
- 4: Hệ thống nhận dạng dùng mạng nơ-ron Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 7 -Chương 1 GIỚI THIỆU CHUNG Chương này tìm hiểu về những vấn đề có liên quan tới nhận dạng tiếng nói, xu hướng hiện nay, cũng như những kết quả đã đạt được trong lĩnh vực nhận dạng tiếng nói trên thế giới.
- Mặc dù vậy, cho đến nay vẫn chưa xuất hiện những máy tính ngang bằng Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 8 -với con người trong lĩnh vực nhận dạng tiếng nói, để làm được điều này có lẽ còn cần phải có thêm nhiều hiểu biết về con người trong việc nhận biết tiếng nói.
- Chính vì lý do trên mà người ta đã nghiên cứu về mạng nơ-ron nhân tạo (Artificial Neural Networks - ANNs).
- Tuy nhiên, để nhận dạng tiếng nói một cách đầy đủ thì vẫn là một bài toán khó.
- Sau đây chúng ta sẽ điểm qua về tình hình chung của nhận dạng tiếng nói trên thế giới, về tình hình nghiên cứu về mạng nơ-ron và từ đó đưa ra tiêu chí cho bản luận văn này.
- 1.1 Điểm qua tình hình nhận dạng tiếng nói Có nhiều hệ thống nhận dạng tiếng nói đã được xây dựng.
- Ví dụ như để nhận dạng 26 từ chữ cái tiếng Anh ( coi như mỗi chữ cái là một từ) cũng là rất khó, bởi có nhiều từ khi phát âm chúng không có độ phân biệt cao (xét trên Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 9 -cả khía cạnh thính giác, tức là sự nghe của con người lẫn khía cạnh dữ liệu tín hiệu.
- Tuy Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 10 -vậy, Dragon Naturally Speaking vẫn được đánh giá cao hơn, sản phẩm này đã đươc tạp chí PC World US bình chọn là sản phẩm nhận dạng tiếng nói tốt nhất năm 1999.
- Khi nghiên cứu về nhận dạng tiếng nói ta quan tâm tới hai vấn đề đó là ngữ âm và thời gian.
- Thuật toán này hiện nay đã đươc sử dụng trong rất nhiều hệ thống nhận dạng tiếng nói.
- Những nhược điểm của mô hình thống kê sẽ được giải quyết bằng mạng nơ-ron nhân tạo.
- Mạng nơ-ron nhân tạo chính là những cố gắng để mô phỏng lại những hoạt động đó.
- Đặc tính Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 11 -quan trọng nhất của mạng nơ-ron là nó có khả năng học tập kinh nghiệm từ một tập hợp mẫu, hay nói cách khác là có khả năng khái quát hóa tập mẫu dữ liệu.
- Chính vì vậy mà việc áp dụng giải pháp mạng nơ-ron vào nhận dạng tiếng nói xem ra có vẻ cũng rất tự nhiên, như quá trình học nói của con người.
- Với những nhận định nêu trên, người ta đã cố gắng xây dựng những mô hình mô phỏng lại hoạt động của mạng nơ-ron .
- Kết quả đã tạo ra hàng loạt các mạng nơ-ron nhân tạo.
- Có thể kể ra một số kết quả như sau: Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 12.
- Nettalk (1987): Mạng nơ-ron dùng cho việc học cách phát âm dòng chữ tiếng Anh.
- ALVINN (1993): Mạng nơ-ron dùng trong việc lái xe.
- Nhận dạng chữ viết tay (1990): Mạng nơ-ron đã được sử dụng cho hệ thống nhận dạng mã vùng trên bì thư của nước Mỹ.
- Với nhận dạng tiếng nói: Nhận dạng tiếng nói đã chính là một sự chứng minh cho tác dụng to lớn của mạng nơ-ron .
- 1.3 Căn bản về nhận dạng tiếng nói Nhận dạng tiếng nói là một mô hình nhận dạng phức tạp theo nhiều mức khác nhau.
- Một hệ thống nhận dạng tiếng nói thường có cấu trúc như Hình 1.1.
- Đặc điểm tiếng nói theo khái niệm âm học, ngữ pháp và đặc biệt là Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 13 -tiếng Việt sẽ được tìm hiểu kỹ trong chương 2.
- 1: Mô hình hệ thống nhận dạng tiếng nói o Fourier analysis (FFT): Khi xử lý tín tiếng nói ta phải rời rạc hóa nó theo thời gian.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 14 - Hình 1.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 16.
- Áp dụng để xây dựng ứng dụng nhận dạng một số từ trong tiếng Việt.
- Chương 3: Mô hình nhận dạng tiếng nói: Chương này nghiên cứu lý thuyết về mô hình Markov ẩn và mạng nơ-ron , bao gồm khái niệm, một số giải thuật là cơ sở cho việc nhận dạng tiếng nói.
- Chương 4: Thiết kế ứng dụng nhận dạng tiếng nói: Chương này mô tả thiết kế ứng dụng áp dụng mạng nơ-ron trong nhận dạng Tiếng Việt.
- Kết quả là phần mềm nhận dạng phát âm một số từ Tiếng Việt.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 19 -2- Cường độ Cường độ của âm do biên độ của dao động của âm quyết định.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 20 -Những âm thanh được tạo ra như thế được gọi là thanh, trái với những âm được tạo ra không phải do sự hoạt động của dây thanh mà do sự cọ sát không khí và thành bộ máy phát âm khi thoát ra ngoài, hoặc do không khí phá vỡ sự cản trở nên lối thoát ra ngoài, tạo thành tiếng nổ, được gọi là tiếng động.
- Chính vì thế hai khoang miệng và yết hầu là hai hộp cộng Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 21 -hưởng quan trọng nhất.
- 2.1.2.2 Các kiểu tạo âm Trên đây ta đã nói đến một trong những kiểu cấu tạo âm thanh phổ biến trong nhiều ngôn ngữ, trong đó có tiếng Việt, đó là kiểu cấu tạo do luồng hơi đi ra từ Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 22 -phổi.
- Như trên ta đã biết khi hai dây thanh khép lại rồi Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 23 -mở ra liên tục, tức chấn động, tạo nên thanh.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 24 -Về mặt cấu âm phụ âm được tạo nên do sự cản trở không khí vốn cần thiết để gây nên tiếng động, trong khi để cấu tạo nguyên âm thì luồng hơi ra tự do.
- Miêu tả một phụ âm chính là xác định âm đó theo hai tiêu chuẩn: Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 25 -¾ Phương thức cấu âm ¾ Vị trí cấu âm 2.3.1 Về phương thức cấu âm Có thể nói đến ba phương thức chính: Tắc, xát, rung.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Âm xát Là nhóm phụ âm điển hình của phương thức xát, các từ Việt như “phải”, “về”, “xui”, “giục”, “gồ ghề” đều bắt đầu bằng những âm xát [f, v, z], các từ Anh “this”, “thing” cũng bắt đầu bằng những âm xát.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Âm giữa Hay còn gọi là âm giữa nửa xát.
- Ở cùng một vị trí, với những phương thức cấu âm khác nhau người ta có những âm khác nhau, chẳng hạn được gọi là âm răng ta có biết bao nhiêu âm khác nhau Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 28 -như [t, d, s, z, r, l].
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Cấu âm bổ sung Ở một số người Việt, và hay gặp hơn là ở trẻ em có hiện tượng phát âm các từ như “mẹ, bé” không bình thường mà thêm vào giữa dường như một âm [j] nhỏ, người ta gọi là hiện tượng ngạc hoá.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Âm tiết 2.4.1.1 Định nghĩa âm tiết Một từ Việt như “lủng củng” gồm hai âm tiết.
- 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 31 -Học thuyết về độ căng cơ: Một số nhà ngữ âm học đã định nghĩa âm tiết theo quan điểm sinh lý học.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron .
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 33.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 34 -Trọng âm cũng có thể được thực hiện bằng trường độ.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 35 -Một người nói: “Tối qua tôi đi xem hát”, ở đây có hai cú đoạn.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 36 -2.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Đồng hóa Về bản chất, cũng giống như hiện tượng thích nghi.
- Thực vậy, âm thanh của con người phát ra thì vô hạn, nhưng quy lại chỉ có mấy chục đơn vị trong một ngôn ngữ như Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 38 -[t,n,k,l,…a,u,i.
- Mỗi người có một cách phát Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 39 -âm riêng, dường như không bị lệ thuộc vào một nhân tố nào cả.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 40 -2.7 Một số đặc điểm riêng của tiếng Việt Trong những phần trước ta đã tìm hiểu về một số đặc điểm âm học của ngôn ngữ nói chung, trong phần này chúng ta sẽ tìm hiểu những nét riêng biệt đặc trưng của tiếng Việt.
- Nó có những biến thể: Nếu âm cuối không phải là âm tắc vô thanh thì nó sẽ bắt đầu ngang, kéo dài trong phần lớn bộ phận vần, sau đó đi xuống với độ dốc lớn, tới một quãng 10 thứ, nếu âm cuối là âm mũi thì phần đi xuống nằm vào Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 41 -âm cuối.
- Âm chính Phương thức cấu âm Định vị (vị trí cấu âm) Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 42 -Trong tiếng Việt điểm thanh tính bao giờ cũng là nguyên âm.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 43 -Chương 3 MÔ HÌNH NHẬN DẠNG TIẾNG NÓI Trong chương này chúng ta tiếp tục tìm hiểu về mô hình Markov ẩn, một công cụ để nhận dạng tiếng nói.
- Tiếp đến chúng ta sẽ tìm hiểu về mạng nơ-ron nhân tạo và có sự so sánh giữa hai phương pháp.
- 3.1 Mô hình Markov ẩn Cách khả thi nhất để nhận dạng tiếng nói trước đây là sử dụng mô hình Markov ẩn (Hidden Markov Models-HMMs).
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 44 - Hình 3.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Thuật toán Ta có những thuật toán cơ bản dùng trong HMMs như sau.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron Thuật toán lùi (Forward-Backward) Để huấn luyện cho HMM, chúng ta phải tối ưu a và b, điều này sẽ làm tăng khả năng đúng đắn của HMM đối với những dữ liệu mới.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 47 - Hình 3.
- 3.1.3 Những hạn chế của HMMs Mặc dù HMM có nhiều ưu điểm, tuy nhiên nó cũng có nhiều hạn chế như sau: Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 48.
- Một tập hợp các đơn vị xử lý (Processing Units) Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 50.
- Các nơ-ron trong một mạng có thể chia làm 2 nhóm điển hình.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 51 - Hình 3.
- 6: Cấu trúc nơ-ron : (a) không sắp xếp.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 52 -Với một nơ-ron thì quá trình trên được chia làm hai giai đoạn, giai đoạn thứ nhất là tính toán thành phần vào, tiếp đến là giai đoạn tính toán thành phần ra như là một hàm của thành phần vào.
- (15) Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 53 -Tuy nhiên ta có thể coi như có một nơ-ron ảo với tham số kết nối của nó tới nơ-ron hiện tại là 00=jw và thành phần ra của nó là 10=y.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 55 -Như vậy, ta có thể chia các tham số vào thành các nhóm khác nhau hay các vùng quyết định một cách tuỳ ý, hình 3.10 cho ta cách chia nhỏ các vùng bằng cách thêm vào mạng một lớp nữa.
- Ví dụ trong trường hợp đơn giản, với mạng chỉ có nhiệm vụ ánh xạ từ một vector vào với một vector ra tương ứng, thì có thể dùng giải thuật sửa tham số mạng như sau: Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 56 -∑=PpPjpiytyW230 (20) Trong đó y là vector vào, t là vector ra mong muốn và p là số thứ tự của mẫu dựa vào.
- 3.2.5 Phân loại mạng nơ-ron Trong phần này chúng ta sẽ tìm hiểu về một số loại mạng nơ-ron cụ thể.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 57 -a) Mạng tiến (Feedforward) Mạng Perceptrons: Là một ứng dụng đơn giản nhất của mạng FeedForward xử dụng phương pháp học có chỉ đạo.
- b) Mạng Recurrent Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 58 -Đúng như tên của nó (Recurrent - Hồi quy) đầu ra của một nơ-ron lại có thể quay trở lại thành đầu vào của chính nơ-ron đó.
- Mô hình nhận dạng bằng phương pháp mạng nơ-ron là mô hình nhận dạng mang tính tổng quát hơn.
- Việc chuẩn hoá rất công phu và tốn thời gian Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 60 -Chương 4 THIẾT KẾ ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 4.1.
- Phân tích yêu cầu bài toán Trong các Chương trước, chúng ta đã nghiên cứu một cách tương đối đầy đủ về cơ sở lý thuyết để có thể xây dựng được một ứng dụng đơn giản cho vấn đề nhận dạng tiếng nói bằng công cụ mạng nơ-ron .
- Chương này phục vụ cho mục đích hiểu sâu hơn về mặt lý thuyết và thực hành, tôi xin trình bày một số quan điểm trong việc xây dựng một chương trình nhận dạng tiếng nói sử dụng mạng nơ-ron .
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 61 - Hình 4.
- Kỹ thuật phân tích tín hiệu cho nhận dạng tiếng nói: sử dụng các filter bank.
- Quá trình phân tích phổ Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 62 -được áp dụng cho mỗi khung tín hiệu để tìm ra các đặc tính phổ tương ứng.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 63 -3.
- Giai đoạn nhận dạng 1.
- Nhận vào đối tượng cần nhận dạng 2.
- 3: Mô hình nhận dạng 1.
- Để mở rộng tập dữ liệu và xem khả năng nhận Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 64 -dạng của hệ thống, ta thu thêm 6 file với micro đã dùng từ đầu và thu tiếp 6 file của một người đọc khác, sau đó trộn lại ta được 18 file .wav cho tập dữ liệu kiểm tra.
- Phương pháp nhận dạng bằng mạng nơ-ron nhân tạo ANN Hình 4.
- 4: Hệ thống nhận dạng dùng mạng nơ-ron Phương pháp nhận dạng bằng mạng nơ-ron bao gồm các bước như được miêu tả trong hình a.
- Theo đó các trọng số như sau: kkkWEWWαβαβαβη∂∂−=+1 Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 66 -kkkVEVVαβαβαβη∂∂−=+1 Trong đó để tính các công thức gradient ta có: ∑=−=−=pidydyE piiVydyVE1)(.2.21αβαβ Cụ thể các công thức gradient được xác định như sau: αβαβ αβ.
- Trong quá trình học, khi luyện mạng, đồ thị sai số có dạng như hình vẽ bên sau: 01X=NX 1u iv 1 2 1XN Nu 1“1” Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 67 - Quá trình kiểm tra: Ta có một tập mẫu kiểm tra (khác tập học.
- Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 68 -d.
- hàm purelin ở nơ-ron lớp đầu ra Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron - 69 -Xây dựng sơ đồ khối ¾ Tìm số Nơron lớp ẩn M SaiKhai báo các đầu vào, ra học và kiểm tra x,dBeginKhởi tạo ma trận chứa các giá trị sai số học E_learn và sai số kiểm tra E_test;M=ФM=M+1M

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt