« Home « Kết quả tìm kiếm

Nhận dạng tiếng nói trên cơ sở mạng Nơron nhân tạo

Tóm tắt Xem thử repository.vnu.edu.vn Tải xuống

- Nhận dạng tiếng nói trên cơ sở mạng Nơron nhân tạo Hồ Văn Hƣơng.
- Nhận dạng tiếng nói là mong ước của khoa học và con người.
- Hiện nay, nhận dạng tiếng nói chưa thực sự đáp ứng đầy đủ các yêu cầu thực tế, song những hệ thống nhận dạng tiếng nói đã có bước phát triển đáng kể..
- Trên thế giới, một số hệ thống nhận dạng tiếng nói cỡ lớn có độ chính xác tương đối cao..
- Các hệ thống này chủ yếu được phát triển trên nền công nghệ hiện đại với những máy tính lớn, những vi mạch xử lý tiếng nói chuyên dụng và sử dụng cơ sở dữ liệu tiếng nói khá hoàn chỉnh, nhưng phần lớn vẫn là xử lý cho tiếng Anh..
- Ở Việt Nam, việc tìm hiểu, nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói còn đang bước đầu có kết quả.
- Do có những đặc thù riêng của tiếng Việt, nên việc chọn lựa phương pháp tiếp cận bài toán nhận dạng phù hợp với tiếng Việt là một vấn đề tương đối khó khăn..
- Những năm gần đây, cũng có khá nhiều đề tài nghiên cứu về nhận dạng tiếng nói tiếng Việt.
- Các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên khuynh hướng nhận dạng mẫu.
- Các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hoá véctơ, hiệu chỉnh thời gian động…, đã được áp dụng khá thành công vào các chương trình nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế..
- Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc vào người nói.
- Vì vậy, các hệ thống nhận dạng tiếng nói hiện nay thường xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn và mạng nơron nhân tạo đã cho một số thành công nhất định..
- Xuất phát từ nhận thức trên, đề tài luận văn Thạc sỹ của em là tìm hiểu, đưa ra phương pháp và xây dựng một ứng dụng nhận dạng tiếng nói tiếng Việt.
- Vì vậy, em đã chọn mạng nơron làm cơ sở cho việc nghiên cứu nhận dạng tiếng nói tiếng Việt..
- Chƣơng 1: Tìm hiểu lịch sử việc nghiên cứu nhận dạng tiếng nói, tổng quan về tiếng nói và nhận dạng tiếng nói..
- Chƣơng 2: Trình bày một số tính chất của tiếng nói như: cơ chế tạo ra tiếng nói, cơ chế thu tiếng nói, các đặc trưng tiếng nói.
- Ngoài ra, chương này cũng đề cập đến kỹ thuật tính hệ số MFCC, là một phương pháp trích chọn đặc trưng tín hiệu tiếng nói khá phổ biến đã được áp dụng hiệu quả trong các hệ thống nhận dạng..
- Chương này cũng đề cập đến những ứng dụng của mạng nơron trong nhận dạng và phân lớp..
- Chương này cũng đề cập đến cấu trúc cụ thể của mạng áp dụng cho bài toán nhận dạng tiếng nói tiếng Việt và đồng thời đánh giá các tham số của hệ thống nhận dạng..
- Chƣơng 5: Xây dựng hệ thống nhận dạng, giao diện chương trình, các kết quả thực nghiệm..
- TỔNG QUAN VỀ TIẾNG NÓI VÀ BÀI TOÁN NHẬN DẠNG 1.1 Lịch sử phát triển của nhận dạng tiếng nói.
- Nhận dạng tiếng nói tự động đã phát triển khoảng 40 năm nay.
- Những nhân tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến như sự phát triển của hệ thống phân tích phổ âm thanh (năm 1946) cho phép thể hiện trực quan các tín hiệu âm, lý thuyết tạo âm thanh tiếng nói của người (năm 1948), sự xuất hiện và phát triển mạnh mẽ của các hệ thống máy tính số thương mại đầu tiên trên thế giới (năm 1958)..
- Các hệ thống nhận dạng đầu tiên có khả năng nhận dạng từ rời rạc và phụ thuộc người nói..
- Để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng đặc tính trong miền thời gian và các ngân hàng bộ lọc tương tự.
- Tương tự như vậy, với phương pháp âm học, hệ thống nhận dạng âm vị phụ thuộc người nói và không phụ thuộc người nói được thiết kế mặc dù mới cho được kết quả rất khiêm tốn..
- Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu như mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian…công nghệ nhận dạng tiếng nói tiếp tục có những bước phát triển mạnh mẽ.
- Với các phương pháp này những hệ thống nhận dạng với số lượng từ khá lớn được thiết kế..
- Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng lớn đã được đầu tư nghiên cứu phát triển các hệ thống nhận dạng tiếng nói các ngôn ngữ khác nhau.
- Đến đầu những năm 80, khả năng về kỹ thuật đã cho phép các nhà nghiên cứu xây dựng các hệ thống nhận dạng được hàng trăm từ rời rạc.
- Gần đây công nghệ nhận dạng đã có những bước phát triển vô cùng nhanh chóng..
- 1.2 Tổng quan về bài toán nhận dạng tiếng nói.
- Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói.
- Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết bị thu thanh khác… thành một chuổi các từ, sau đó được nhận dạng để sử dụng trong các ứng dụng điều khiển thiết bị, nhập dữ liệu hoặc soạn thảo văn bản bằng lời… hoặc đưa đến một quá trình xử lý ngôn ngữ ở mức cao hơn..
- Tiếng nói là công cụ truyền đạt thông tin quan trọng của người.
- Bình thường, chúng ta không để ý quá trình nhận dạng tiếng nói diễn ra như thế nào? tại sao chúng ta hiểu được các từ, các câu một cách đơn giản như vậy?.
- Trên thực tế, quá trình nhận dạng tiếng nói của người là một quá trình phức tạp.
- Hiện nay, các nhà nghiên cứu cố gắng tìm hiểu, phân tích và mô phỏng quá trình nhận dạng tiếng nói của người dưới dạng các chương trình máy tính.
- Do vậy, việc mô phỏng tiếng nói cũng gặp nhiều khó khăn..
- Chúng ta có thể thấy được một cách trực quan bài toán nhận dạng tiếng nói qua hình 1.1..
- Hình 1.1 Mô hình nhận dạng tiếng nói.
- Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đổi.
- Những đặc trưng này sẽ là đầu vào cho quá trình nhận dạng.
- Sau khi nhận dạng tín hiệu người dùng phát âm, hệ thống sẽ đưa ra kết quả nhận dạng.
- Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân tích các đặc trưng của tiếng nói là việc không dễ.
- Ở đây, chúng ta có thể nêu ra một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:.
- Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…ảnh hưởng không nhỏ tới hiệu quả nhận dạng..
- Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng trong thực tế.
- Các hệ thống nhận dạng góp phần rất lớn trong việc thúc đẩy phát triển nhiều ngành.
- Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các hệ thống nhận dạng cũng gặp không ít những khó khăn, nhất là ở Việt Nam khi các kết quả nghiên cứu về nhận dạng tiếng Việt chưa nhiều, cũng như cơ sở hạ tầng cho việc nghiên cứu còn ít..
- 1.3 Một số hệ thống nhận dạng tiếng nói.
- Nhận dạng tiếng nói là vấn đề đã được chia thành hai nhóm riêng biệt dựa trên mục đích sử dụng khác nhau..
- Một nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản..
- Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn trực quan hơn về bài toán.
- Các hệ thống nhận dạng được phân loại như hình vẽ 1.2..
- Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [10]:.
- Phương pháp nhận dạng mẫu..
- 1.4 Tổng quan về tiếng nói 1.4.1 Âm thanh và tiếng nói.
- Sóng trong không khí truyền đến tai, tác động vào màng nhĩ, làm cho màng nhĩ dao động với cùng tần số (dao động cưỡng bức), có khả năng tạo ra cảm giác âm thanh trong tai khi tần số sóng đạt tới một độ lớn nhất định.
- Tai người chỉ có thể cảm nhận được âm thanh trong một khoảng tần số từ 20Hz đến 20000Hz.
- Tiếng nói là âm thanh do người phát ra.
- Khi phát âm, nguồn không khí từ phổi sẽ kích hoạt bộ phát âm làm căng các dây thanh quản và khi không khí đi qua làm cho các dây thanh quản này dao động tạo nên âm thanh tiếng nói.
- Tiếng nói của người có năng lượng tập trung nằm trong khoảng tần số từ 1000Hz đến 4000Hz..
- Cao độ của âm thanh là độ cao hay thấp của âm thanh được quyết định bởi sự Hình 1.2 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói.
- Dây thanh rung với tần số nhanh sẽ cho những âm cao, dây thanh rung chậm sẽ cho những âm thấp.
- Đơn vị đo cao độ ở đây được dùng là Hz, đo số chu kỳ dao động thực hiện được trong 1 giây, gọi là tần số.
- Những âm có tần số khác nhau gây cho ta những cảm giác âm khác nhau.
- Nó dựa vào đặc tính của âm là tần số..
- Do cấu tạo của dây thanh khác nhau, mà tần số tạo ra phụ thuộc vào giới tính và lứa tuổi của người phát âm (phụ nữ và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi)..
- Do đặc điễm sinh lý của tai người, ngưỡng nghe thay đổi tùy theo tần số âm.
- Với các tần số 1000Hz - 5000Hz, ngưỡng nghe khoãng 10 -12 W/m 2 .
- Với tần số 50Hz, ngưỡng nghe lớn gấp 10 5 lần..
- Khi xác định cường độ âm, người ta lấy I o là ngưỡng nghe của âm có tần số 1000Hz gọi là tần số âm chuẩn..
- Tai người nghe thính nhất với các âm trong miền tần số 1000Hz - 4000Hz, và nghe âm cao thính hơn nghe âm trầm..
- Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ.
- Thực nghiệm chứng tỏ rằng khi một nhạc cụ hoặc một người phát ra một âm có tần số f 1 thì đồng thời cũng phát ra các âm có tần số.
- Âm có tần số f 1 gọi là âm cơ bản (hay họa âm thứ nhất), các âm có tần số f 2 , f 3 , f 4 … gọi là các hoạ âm thứ hai, thứ ba, thứ tư… Tùy theo cấu trúc từng loại nhạc cụ, hoặc cấu trúc khoang miệng và cổ họng từng người mà trong số các hòa âm cái nào có biên độ lớn, biên độ nhỏ và cái nào chóng bị tắt đi.
- Cho đến nay, các hệ thống nhận dạng tiếng nói tiếng Việt khá thành công chủ yếu là dựa trên khuynh hướng nhận dạng mẫu đơn giản.
- Trong khi đó, phương pháp sử dụng trí tuệ nhân tạo vào nhận dạng tiếng nói còn chưa nhiều, mặc dù mạng nơron là một công cụ rất mạnh và hứa hẹn nhiều ứng dụng mới.
- Vì vậy, mục tiêu của đề tài là thử nghiệm mạng nơron lan truyền ngược để nhận dạng mười từ số đếm tiếng Việt từ: không đến chín..
- Thiết kế mạng nơron lan truyền ngược để nhận dạng các từ tiếng Việt đơn âm tiết là số đếm và phân tích các tham số của mạng..
- Thử nghiệm nhận dạng với một số người nói..
- Đặng Ngọc Đức, Lương Chi Mai (3/2004), Tăng cường độ chính xác của hệ thống mạng nơron nhận dạng tiếng Việt, Tạp chí Bưu chính Viễn thông, số 11..
- Ngô Hoàng Huy, Lương Chi Mai, Bùi Quang Trung, Nguyễn Thị Thanh Mai, Vũ Kim Bảng, Vũ Thị Thanh Hà (2003), Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, Kỷ yếu hội thảo Fair..
- Nguyễn Thanh Phúc (2000), Một phương pháp nhận dạng lời Việt: Áp dụng phương pháp kết hợp mạng nơron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt, Luận Văn Tiến Sỹ kỹ thuật, Đại học Bách khoa Hà nội.

Nhận dạng tiếng nói trên cơ sở mạng Nơron nhân tạo

CHỦ ĐỀ LIÊN QUAN