« Home « Kết quả tìm kiếm

ỨNG DỤNG MẠNG NƠ-RON NHÂN TẠO ĐỂ ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI TIẾNG VIỆT


Tóm tắt Xem thử

- ỨNG DỤNG MẠNG NƠ-RON NHÂN TẠO.
- ÐỂ ÐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NĨI TIẾNG VIỆT.
- Bài báo đề cập đến một giải pháp ứng dụng mạng nơ-ron nhân tạo (Artificial neural networks) để điều khiển thiết bị bằng giọng nĩi tiếng Việt.
- Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu tiếng nĩi.
- Một mạng nơ-ron nhân tạo được huấn luyện để nhận dạng giọng nĩi tiếng Việt của bất kỳ người nào, khi họ đọc một trong bốn từ lệnh ‘Trái’, ‘Phải’, ‘Tới’ và ‘Lui’ (áp dụng để điều khiển robot).
- Kết quả nghiên cứu được kiểm chứng thơng qua việc điều khiển từ xa một xe vơ tuyến.
- Ðộ chính xác được ước lượng xấp xỉ 90% và khả năng mở rộng tập lệnh điều khiển là rất cao..
- Từ khĩa: Mạng nơ-ron nhân tạo, nhận dạng tiếng nĩi, chu kì cao độ, trích các formant, vi điều khiển, hệ thống điều khiển.
- Ứng dụng nhận dạng tiếng nĩi để điều khiển thiết bị là một lĩnh vực thiết thực trong cuộc sống.
- Cĩ nhiều phương pháp tiếp cận đến nhận dạng tiếng nĩi, song do tính phức tạp vốn cĩ của mỗi ngơn ngữ và mỗi chất giọng của từng dân tộc, mà lĩnh vực này luơn là một thách thức to lớn đối với những người đam mê..
- Bài viết này chúng tơi mong muốn tìm kiếm một giải pháp ứng dụng trí tuệ nhân tạo trong cuộc sống.
- Cụ thể là áp dụng mạng nơ-ron nhân tạo (artificial neural networks, gọi tắt là mạng nơ-ron) để nhận dạng một số từ cơ bản của tiếng Việt, đủ để điều khiển một mini-robot.
- Với mục tiêu mong muốn là bất kì người sử dụng nào cũng cĩ thể vận hành tốt thiết bị bằng cách đọc các lệnh vào micro của máy tính.Mạng Nơ-ron sẽ nhận dạng từ điều khiển vừa đọc, và gởi đến mạch giao tiếp thiết bị byte điều khiển tương ứng (Hình 1)..
- Chúng tơi tiến hành xây dựng hệ thống cĩ thể điều khiển thiết bị bằng 4 từ: ‘Tới’, ‘Lui’,.
- ‘Trái’ và ’Phải’.
- Kết quả thử nghiệm rất khả quan và cho thấy khả năng mở rộng tập lệnh điều khiển là rất cao (Nguyễn Chí Ngơn và Trịnh Hữu Phúc, 2002.
- 2 XÂY DỰNG CƠ SỞ DỮ LIỆU DÙNG CHO VIỆC HUẤN LUYỆN.
- Trước tiên, chúng tơi cần xây dựng một cơ sở dữ liệu dùng để huấn luyện mạng (gọi là tập mẫu).
- Tập mẫu này cĩ được thơng qua việc thu thập dữ liệu của nhiều giọng đọc khác nhau và xử lý để chỉ giữ lại những đặc trưng cơ bản của nĩ.
- Sau đĩ, quá trình huấn luyện mạng được thực hiện.
- Kết thúc quá trình này, mạng nơ-ron cĩ thể phân loại các từ khác nhau, từ đĩ cĩ thể nhận dạng được các từ đã học mà khơng cần đến khơng gian dữ liệu mẫu nữa.
- Tương ứng với 4 từ lệnh dùng để điều khiển robot, “tới”, “lui”, “trái” và “phải”, chúng tơi đánh dấu các dữ liệu đặc trưng đã phân tích được thành 4 nhĩm.
- Quá trình nhận dạng, thực chất là phân loại (classification) từ cần kiểm tra thuộc nhĩm nào trong 4 nhĩm dữ liệu trên (Ngơn et al, 2002.
- 2.1 Tiền xử lý dữ liệu.
- Sau khi ghi âm, tín hiệu tiếng nĩi cần được xử lý để hạn chế nhiễu.
- Ðồng thời, một giải thuật tách từ được áp dụng để xác định thời điểm bắt đầu và kết thúc của tín hiệu (bởi vì thời gian cho phép soundcard ghi âm thường dài hơn tín hiệu thực tế).
- Hình 2 trình bày nguyên tắc tiền xử lý dữ liệu.
- Hình 3 minh họa dạng tín hiệu trước và sau khi xử lý..
- Hình 2: Nguyên tắc tiền xử lý dữ liệu tiếng nĩi.
- 2.2 Trích đặc trưng tín hiệu tiếng nĩi.
- Tách được các đặc trưng cơ bản của tín hiệu tiếng nĩi cĩ ý nghĩa rất quan trọng vì đĩ là cơ sở để nhận dạng.
- Các nghiên cứu cho thấy, hai thành phần đặc trưng quan trọng nhất, đĩ là chu kì cao độ (pitch period) và các formant (Tran Thanh Hung, Q.P.
- Trong khi đĩ các formant liên quan đến phổ tần số của tín hiệu.
- Do đĩ chỉ cĩ thể thu được các formant bằng cách phân tích và biểu diễn tín hiệu tiếng nĩi ở miền thời gian-tần số..
- Qua thực nghiệm chúng tơi nhận thấy, với cùng một người, nếu người đĩ đọc các từ khác nhau thì formant tương ứng cũng khác nhau.
- Do đĩ, chúng tơi quyết định trích các formant này và dùng nĩ để làm dữ liệu huấn luyện mạng nơ-ron..
- Hình 4 mơ tả nguyên tắc trích formant của tín hiệu tiếng nĩi dùng phép biến đổi STFT.
- sample Hình 3: Kết quả xử lý, (a) trước khi xử lý, (b) sau khi xử lý – gọi là 1 từ tín hiệu.
- Hình 4: Nguyên tắc trích formant của tín hiệu tiếng nĩi.
- Do tín hiệu tiếng nĩi là tín hiệu khơng dừng, nên khơng thể áp dụng phép phân tích Fourier thơng thường.
- Song, nếu chúng ta chia tín hiệu tiếng nĩi ra thành từng đoạn đủ nhỏ theo thời gian, thì tín hiệu tiếng nĩi trong mỗi đoạn cĩ thể xem là tín hiệu dừng, và do đĩ cĩ thể lấy biến đổi Fourier trên từng đoạn tín hiệu này.
- Trong STFT, tín hiệu cần phân tích f(t) đầu tiên được nhân với một hàm cửa sổ w(t.
- để lấy được tín hiệu trong một khoảng thời gian ngắn xung quanh thời điểm.
- Sau đĩ phép biến đổi Fourier bình thường được tính trên đoạn tín hiệu này.
- Kết quả ta được một hàm theo tần số và thời gian STFT f.
- do cửa sổ tương đối ngắn làm triệt tiêu tín hiệu ngồi vùng lân cận.
- Ðể thấy rõ STFT cũng định vị trong miền tần số, ta cĩ thể áp dụng định lý Parserval:.
- (2) Biểu thức (1) cĩ thể viết lại như sau:.
- cĩ tác dụng như một lọc dãy thơng tập trung quanh tần số đang phân tích  và cĩ băng thơng bằng với băng thơng của w(t), làm giới hạn phổ của tín hiệu F.
- Hình 5: Kết quả trích formant bằng STFT của từ “Tới”.
- d) trích các formant.
- Hàm Kaiser cĩ thể thay đổi linh hoạt nhờ vào thơng số hình dạng (shape parameter).
- Kết quả phân trích đặc trưng của từ “Tới” được minh họa trên hình 5.
- Sau khi rời rạc hĩa các formant tại 20 thời điểm trên trục thời gian và 10 vị trí trên trục tần số, đặc trưng của tiếng nĩi được qui về dạng 1 ma trận dữ liệu (10x20), tương ứng với 200 nút vào của.
- mạng nơ-ron (xem phần 3.1).
- Tập hợp tất cả các ma trận dữ liệu này, chính là tập mẫu dùng để huấn luyện mạng..
- 3 XÂY DỰNG MẠNG NƠ-RON 3.1 Cấu trúc mạng.
- Việc xác định cấu trúc tối ưu cho một mạng nơ-ron tuỳ thuộc vào lĩnh vực ứng dụng của nĩ.
- Qua quá trình thử nghiệm, chúng tơi chọn được mạng Nơ-ron dùng nhận dạng là mạng truyền thẳng nhiều lớp với các thơng số của mạng như sau: lớp vào (input layer) gồm 200 nút (tương ứng với 200 điểm đặc trưng của mỗi mẫu dữ liệu đã phân tích).
- Hình 6: Cấu trúc mạng nơ-ron ứng dụng.
- 3.2 Huấn luyện mạng.
- Nĩi chung giải thuật huấn luyện mạng nơ-ron tương đối phức tạp.
- Chúng tơi đã áp dụng giải thuật huấn luyện Levenberg-Marquardt.
- Quá trình huấn luyện mạng (lưu đồ tổng quát cho trên Hình 7) chúng tơi cĩ kiểm tra bằng dữ liệu của 3 người khơng cĩ giọng đọc trong tập mẫu để đánh giá khả năng ‘nhớ’của mạng.
- Quá trình huấn luyện được thực hiện khoảng 4 giờ trên máy PC Celeron 1.8GHz, 256MB DRAM.
- Các giải thuật huấn luyện được trình bày chi tiết trong (Nelson, M.
- Hình 7: Lưu đồ thao tác huấn luyện.
- 4 MẠCH GIAO TIẾP THIẾT BỊ.
- Thiết bị được điều khiển thơng qua cổng truyền thơng nối tiếp RS232.
- Mạch giao tiếp giữa thiết bị và máy tính được xây dựng dựa trên vi điều khiển 89C2051 (xem Hình 8 và Hình 9)..
- Máy tính RS232 TTL 89C2051 Điều khiển.
- thiết bị.
- Hoạt động của thiết bị cĩ thể tĩm tắt đơn giản: Sau khi mạng nơ-ron nhận dạng được từ lệnh của người điều khiển (bằng giọng nĩi), một byte điều khiển được gửi ra cổng RS232;.
- thơng qua vi điều khiển 89C2051, byte điều khiển này được gửi tới một mạch phát sĩng vơ tuyến.
- thiết bị sẽ chấp hành mệnh lệnh khi bộ thu sĩng của nĩ giải mã đuợc từ điều khiển.
- Cơ chế này cho phép vận hành thiết bị từ xa thơng qua việc đọc lệnh vào máy tính..
- Hình 9: Giao tiếp giữa thiết bị và máy tính.
- 5 KẾT QUẢ.
- Sau khi huấn luyện, mạng được áp dụng để điều khiển từ xa một xe vơ tuyến.
- Một chương trình tự động ghi nhận kết quả nhận dạng (sau khi được xác nhận của người điều khiển), được áp dụng.
- Thống kê trên 1000 lần đọc các lệnh ‘Tới’, ‘Lui’, ‘Trái’,’Phải’ của nhiều người, chúng tơi ước lượng được độ chính xác như sau (Bảng 1 và Bảng 2):.
- 95% đối với nhĩm người cĩ giọng đọc đã được sử dụng để huấn luyện mạng..
- 84% đối với nhĩm người cĩ giọng đọc chưa được sử dụng để huấn luyện mạng.
- Tuy nhiên, chúng ta cĩ thể ghi âm giọng nĩi của những người này và huấn luyện tiếp để cải thiện tỉ lệ lỗi..
- Hiện tại chúng tơi chỉ xây dựng mạng với số lượng từ nhận dạng cịn ít (4 từ) dựa trên giọng đọc của 10 người (gồm 9 nam và 1 nữ, chất giọng miền tây nam bộ).
- Đây cũng là điểm hạn chế của đề tài, vì cơ sở dữ liệu khơng đủ tổng quát để áp dụng cho những miền khác của Việt nam.
- Hơn nữa, quá trình huấn luyện, mạng chỉ phân loại một lần tín hiệu đầu vào và chia ra thành 4 nhĩm, đặc trưng cho 4 từ: ‘Tới’, ‘Lui’, ‘Trái’ và ‘Phải’.
- Tuy nhiên, kết quả nghiên cứu cho thấy khả năng tăng số lượng từ nhận dạng là khả thi.
- Trong trường hợp đĩ, chúng tơi dự kiến sẽ phân lớp dữ liệu trước khi nhận dạng.
- Chẳng hạn, chúng tơi dùng một mạng tổng quát để phân biệt từ vừa đọc thuộc nhĩm “thanh bằng ” hay “thanh trắc”, sau đĩ đưa vào mạng chuyên biệt để nhận dạng chính xác từ vừa đọc..
- Ngồi ra chúng tơi thấy rằng, kiểm tra trên nhĩm người cĩ giọng đọc đã được sử dụng để huấn luyện, mạng nơ-ron làm việc khá hiệu quả.
- Vì thế, chúng tơi đề xuất 1 phương án.
- Ðĩ là, chế tạo xe lăn điều khiển bằng giọng nĩi, dành cho những người khuyết tật bị mất cả 2 tay và 2 chân.
- Trong trường hợp này, giải pháp huấn luyện là hết sức đơn giản, vì mạng nơ- ron chỉ cần nhận dạng chính giọng chủ của xe lăn mà thơi..
- Bảng 1: Kết quả nhận dạng trên nhĩm người cĩ giọng nĩi đã dùng để huấn luyện.
- Từ lệnh Số lần đọc Số lần nhận dạng đúng Tỉ lệ xấp xỉ.
- Bảng 2: Kết quả nhận dạng trên nhĩm người cĩ giọng nĩi chưa dùng để huấn luyện.
- Nghiên cứu này được thực hiện dưới sự hổ trợ của Ðại học Cần thơ, trong phạm vi đề tài cấp trường, mang tên “Nghiên cứu ứng dụng mạng nơ-ron nhân tạo để điều khiển thiết bị bằng giọng nĩi tiếng Việt”, thực hiện năm của nhĩm tác giả..
- Hệ mờ và ứng dụng.
- Bước đầu nghiên cứu ứng dụng mạng nơ-ron để điều khiển thiết bị bằng tiếng nĩi