« Home « Kết quả tìm kiếm

Nhận dạng tiếng nói Tiếng Việt sử dụng mức dưới từ


Tóm tắt Xem thử

- NGUYỄN PHÚ BÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG Hà Nội – 2004 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- NGUYỄN PHÚ BÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT SỬ DỤNG MỨC DƯỚI TỪ LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: XỬ LÝ THÔNG TIN VÀ TRUYỀN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.
- Nhận dạng tiếng nói.
- Các phương pháp tiếp cận trong nhận dạng tiếng nói.
- Phương pháp nhận dạng mẫu.
- Tình hình nhận dạng tiếng nói tại nước ta hiện nay.
- 11 2 Tín hiệu tiếng nói.
- Bộ máy phát âm và cơ chế tạo ra tiếng nói.
- Các đặc tính âm học của tiếng nói.
- Biểu diễn tín hiệu tiếng nói.
- Tín hiệu tiếng nói trên miền thời gian.
- Tín hiệu tiếng nói trên miền tần số.
- Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp.
- 20 3 Trích chọn đặc trưng tín hiệu tiếng nói.
- Phát hiện điểm đầu và điểm cuối của tiếng nói.
- Sử dụng mô hình Markov ẩn trong nhận dạng tiếng nói.
- Nhận dạng tiếng nói phát âm rời rạc.
- Nhận dạng tiếng nói phát âm liên tục.
- 66 5 Sử dụng mô hình ngôn ngữ trong nhận dạng tiếng nói.
- Các thuật toán tìm kiếm trong nhận dạng tiếng nói.
- 84 6 Xây dựng chương trình nhận dạng tiếng nói tiếng Việt.
- Xây dựng hệ thống nhận dạng tiếng nói tiếng Việt.
- Chuẩn bị cơ sở dữ liệu tiếng nói.
- Nhận dạng tiếng nói trong chế độ thời gian thực.
- Các đơn vị nhận dạng thông thường.
- Đề xuất đơn vị nhận dạng cơ bản là bán âm tiết.
- Nhận dạng các từ chưa được huấn luyện.
- Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình.
- Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học.
- Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu.
- Quá trình tạo và cảm thụ tiếng nói của con người.
- Quá trình tạo tín hiệu tiếng nói.
- Biểu diễn tín hiệu tiếng nói trên miền thời gian.
- Sơ đồ tổng quát của các phương pháp phân tích đặc trưng tiếng nói.
- Mô hình tổng quát nhận dạng tiếng nói sử dụng HMM.
- Thuật toán Viterbi áp dụng trong nhận dạng tiếng nói.
- Nhận dạng tiếng nói trong thời gian thực.
- 113 Lời nói đầu Nhận dạng tiếng nói tự động từ lâu đã là một mơ ước của con người.
- Hiện nay trên thế giới đã có một số hệ thống nhận dạng tiếng nói cỡ lớn, có độ chính xác tương đối cao.
- Trong những năm gần đây, ở Việt Nam nói chung và trường Đại học Bách Khoa Hà Nội nói riêng đã có khá nhiều nghiên cứu về nhận dạng tiếng nói tiếng Việt.
- Cho đến nay, các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên khuynh hướng nhận dạng mẫu.
- đã được áp dụng khá thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế.
- Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc người nói.
- Vì vậy, các hệ thống nhận dạng tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn, hoặc mô hình lai giữa Markov ẩn và mạng neuron.
- Trên thế giới đã có khá nhiều hệ thống nhận dạng tiếng nói cỡ lớn sử dụng mô hình Markov ẩn cho độ chính xác rất cao như hệ thống nhận dạng Sphinx của trường đại học Carnegie Mellon, bộ công cụ nhận dạng tiếng nói HTK của trường đại học Cambridge.
- Ở Việt Nam, một số chương trình nhận dạng tiếng nói dựa trên mô hình Markov ẩn cũng đã cho những kết quả khá khả quan.
- Tuy nhiên, phần lớn những chương trình đó vẫn chỉ sử dụng mô hình Markov ẩn ở mức từ nên số lượng từ vựng có khả năng nhận dạng được còn hạn chế và khó áp dụng để nhận dạng được tiếng nói phát âm liên tục.
- Cũng đã có một số hệ thống nhận dạng sử dụng mô hình Markov ẩn ở mức đơn vị âm thanh nhỏ hơn từ nhưng những thực nghiệm của các hệ thống đó vẫn chỉ áp dụng trên một tập từ vựng không lớn lắm và cũng chưa đề cập gì đến việc nhận dạng tiếng nói liên tục.
- Xuất phát từ nhận thức trên, cuốn luận văn này được thực hiện với mục tiêu là tìm hiểu và đưa ra phương pháp để xây dựng được một ứng dụng nhận dạng tiếng nói tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ.
- Đây sẽ là cơ sở để cho phép phát triển các ứng dụng nhận dạng tiếng nói liên tục với số lượng từ vựng lớn trong tương lai.
- Cụ thể, nội dung của luận văn được chia làm các phần như sau: Chương 1 giới thiệu về những khái niệm cơ bản của nhận dạng tiếng nói và tóm tắt một số kết quả nghiên cứu về nhận dạng tiếng nói tiếng Việt.
- Chương 2 trình bày về một số tính chất của tín hiệu tiếng nói, từ cơ chế tạo ra tiếng nói, các đặc trưng của tiếng nói và các phương pháp biểu diễn tín hiệu tiếng nói.
- Chương 3 đề cập đến kĩ thuật tính các hệ số MFCC, đó là một phương pháp trích chọn đặc trưng tín hiệu tiếng nói đã được áp dụng khá hiệu quả trong các hệ thống nhận dạng.
- Chương 4 trình bày về khái niệm mô hình Markov ẩn và một số vấn đề đáng lưu ý khi áp dụng mô hình Markov ẩn vào nhận dạng tiếng nói.
- Một nội dung khá quan trọng của chương này chính là thủ tục huấn luyện nhúng (embedded training), đó là kĩ thuật cơ sở để xây dựng các mô hình mức dưới từ (subword) để sử dụng trong các ứng dụng nhận dạng tiếng nói với số lượng từ vựng lớn.
- Chương 5 trình bày khái quát về mô hình ngôn ngữ và cách áp dụng mô hình ngôn ngữ vào lĩnh vực nhận dạng tiếng nói.
- Chương 6 giới thiệu về hệ thống nhận dạng tiếng nói tiếng Việt sử dụng đơn vị nhận dạng mức dưới từ mà học viên đã xây dựng.
- Nhận dạng tiếng nói Nhận dạng tiếng nói hiện đang là một trong những vấn đề nhận được nhiều sự quan tâm của các nhà nghiên cứu bởi tiềm năng ứng dụng to lớn của nó.
- Một cách tổng quát, nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói.
- Các hệ thống nhận dạng tiếng nói có thể được phân thành các loại như sau.
- Nhận dạng các từ phát âm rời rạc / liên tục.
- Nhận dạng tiếng nói phụ thuộc người nói / không phụ thuộc người nói.
- Hệ thống nhận dạng có từ điển cỡ nhỏ (khoảng 20 từ.
- Nhận dạng tiếng nói trong môi trường có độ ồn thấp / cao.
- Trong một hệ thống nhận dạng tiếng nói phát âm rời rạc thì người nói sau khi nói một từ phải dừng lại trước khi phát âm từ tiếp theo.
- Ngược lại, hệ thống nhận dạng lời nói liên tục không đòi hỏi điều này.
- Chương 1: Tổng quan 2 Hệ thống nhận dạng phụ thuộc người nói đòi hỏi người nói phải cung cấp một số mẫu tiếng nói của mình trước khi sử dụng.
- Hệ thống nhận dạng tiếng nói có từ điển cỡ lớn hoặc có nhiều từ dễ nhầm lẫn thường có độ chính xác không cao bằng hệ thống nhận dạng có vốn từ vựng cỡ nhỏ.
- Một vấn đề trọng tâm của nhận dạng tiếng nói là phải giải quyết được tính biến thiên của tín hiệu tiếng nói.
- Hiện tại các hệ thống nhận dạng tiếng nói phân biệt hai loại tính chất biến thiên: biến thiên âm học và biến thiên thời gian.
- Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình Hình 1.1 cho ta thấy các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình.
- Trong quá trình huấn luyện, cơ sở dữ liệu tiếng nói được sử dụng để xác định các tham số hệ thống.
- Một trong những khó khăn lớn nhất của việc nghiên cứu nhận dạng tiếng nói tự động là tính phụ thuộc đa chuyên ngành.
- Có rất nhiều chuyên ngành khoa học liên quan đến nhận dạng tiếng nói như : xử lý tiếng nói, vật lý (âm học), nhận dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính.
- Để có thể xây dựng thành công một hệ thống nhận dạng tiếng nói tự nhiên có từ điển cỡ lớn thì cần phải có nhiều kiến thức trong tất cả các chuyên ngành đó, đấy là một lượng kiến thức khổng lồ vượt quá khả năng của bất kì một người nào.
- Các phương pháp tiếp cận trong nhận dạng tiếng nói Hiện nay có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [1], đó là.
- Bước đầu tiên trong nhận dạng tiếng nói theo phương pháp này là phân đoạn và gán nhãn.
- Bước này chia tín hiệu tiếng nói thành các đoạn có đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp.
- Sơ đồ khối của hệ thống nhận dạng theo phương pháp này như sau: Chương 1: Tổng quan 4 Hình 1.2.
- Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp âm học - ngữ âm học Nguyên lý hoạt động của hệ thống này như sau.
- Tín hiệu tiếng nói sau khi số hóa được đưa tới khối phân tích tiếng nói nhằm xác định các số đo phổ tín hiệu tiếng nói biến đổi theo thời gian.
- Các kĩ thuật phân tích tiếng nói phổ biến là sử dụng các bộ lọc thông dải, mã hóa dự đoán tuyến tính (LPC.
- Bước sau đó là tách đặc tính tín hiệu tiếng nói nhằm biến đổi các số đo phổ tín hiệu thành một tập các đặc tính mô tả các tính chất âm học của các đơn vị ngữ âm khác nhau.
- Ở bước này hệ thống nhận dạng tiếng nói cố gắng tìm các vùng âm thanh ổn định (vùng có đặc tính thay đổi rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị ngữ âm.
- Đây là bước chủ yếu của hệ thống nhận dạng tiếng nói theo khuynh hướng âm học - ngữ âm học, và là bước khó thực hiện tin cậy nhất.
- s(n) Hệ thống phân tích tiếng nói Bộ phát hiện đặc điểm 1 Bộ phát hiện đặc điểm Q Phân đoạn và Gán nhãn Chiến lược điều khiển.
- Phương pháp nhận dạng mẫu Phương pháp này không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng.
- Các hệ thống nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước.
- Ở bước thứ nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để huấn luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu).
- Bước thứ hai hệ thống nhận các mẫu tiếng nói từ bên ngoài, so sánh chúng với các mẫu đặc trưng để nhận dạng.
- Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện có thể xác định chính xác các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ.
- Trước đây, đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ vựng cỡ nhỏ thì người ta thường áp dụng các kĩ thuật nhận dạng mẫu đơn giản như: lượng tử hóa vector, hiệu chỉnh thời gian động.
- Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp này như sau: Chương 1: Tổng quan 6 Ph©n tÝchhÖ thèngHuÊnluyÖn mÉuC¸c mÉuchuÈn / c¸cm« h×nhPh©n lo¹imÉuQuyÕt ®ÞnhlogicTiÕngnãiTrÝch chän®Æc tr-ngB¨ng läcLPCDFT{mÉu thö} {c¸c mÉu tham chiÕu}TiÕng nãinhËn d¹ng Hình 1.3.
- Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu Hoạt động của hệ thống có thể được tóm tắt như sau.
- Trích chọn đặc trưng tiếng nói: đầu tiên tín hiêu tiếng nói được phân tích thành một chuỗi các số đo để xác định mẫu nhận dạng.
- Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là.
- Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.
- Sau đó dùng mạng này để nhận dạng tiếng nói.
- Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói đầu vào.
- Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong một bộ nhận dạng tiếng nói

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt