« Home « Kết quả tìm kiếm

Các phương pháp mã hóa thoại trong các bộ Vocoder


Tóm tắt Xem thử

- DOÃN THANH BÌNH CÁC PHƯƠNG PHÁP MÃ HÓA THOẠI TRONG CÁC BỘ VOCODER Chuyên ngành : KỸ THUẬT ĐIỆN TỬ LUẬN VĂN THẠC SĨ KHOA HỌC KỸ THUẬT ĐIỆN TỬ NGƯỜI HƯỚNG DẪN KHOA HỌC : 1.
- NGUYỄN HỮU TRUNG iLời Cam Đoan Tôi xin cam đoan luận văn là do bản thân tôi thực hiện dựa trên những kiến thức đã được học và dựa trên những kinh nghiệm thực tiễn trong quá trình làm việc, dưới sự hướng dẫn của TS.Nguyễn Hữu Trung.
- Hà Nội, ngày 25 tháng 10 năm 2010 Học Viên Doãn Thanh Bình Mục Lục Trang Trang phụ bìa Mục lục Lời cam đoan i Danh mục các ký hiệu, các chữ viết tắt ii Danh mục bảng iii Danh mục các hình vẽ, đồ thị iv Mở Đầu vi Chương 1 – CÁC ĐẶC TRƯNG CƠ BẢN CỦA TÍN HIỆU THOẠI 1 1.1 Đặc trưng của âm thanh tương tự 1 1.2 Quá trình tạo ra tiếng nói 3 1.2.1 Mô hình hóa quá trình tạo ra tiếng nói 3 1.2.2 Tính chất cơ bản của quá trình tạo tiếng nói 4 Chương 2 – TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ TÍN HIỆU THOẠI 5 2.1 Hệ thống số xử lý âm thanh 5 2.1.1 Mô hình hóa tín hiệu âm thanh 5 2.1.2 Kiến trúc hệ thống số xử lý âm thanh 6 2.1.3 Mô hình xử lý âm thanh 9 2.2 Tổng quan các bước xử lý tín hiệu thoại 19 2.2.1 Lấy mẫu 19 2.2.2 Lượng tử hóa 20 2.2.3 Mã hóa 20 2.2.4 Nén giọng nói 20 2.3 Các tiêu chí đánh giá 20 2.3.1 Các tiêu chuẩn đánh giá một bộ Codec 20 2.3.2 Chỉ tiêu đánh giá thuật toán mã hóa 21 Chương 3 – CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU THOẠI 22 3.1 Mã hóa dạng sóng 22 3.1.1 PCM – G DM 24 3.1.2 DPCM 25 3.1.3 ADPCM – G726 25 3.2 Mã hóa tiếng nói kiểu Vocoder 26 3.3 Mã hóa lai 27 Chương 4 – PHÂN TÍCH DỰ ĐOÁN TUYẾN TÍNH 28 4.1 Dự đoán tuyến tính 28 4.1.1 Bài toán dự đoán tuyến tính 29 4.1.2 Dự đoán tuyến tính trong xử lý thoại 31 4.2 Mô hình xử lý tín hiệu thoại 32 4.3 Cấu trúc của giải thuật dùng mô hình LPC 35 4.3.1 Bộ mã hóa Encoder 35 4.3.2 Tính toán công suất 36 4.3.3 Bộ giải mã 37 4.3.4 Giới hạn của mô hình LPC 37 Chương 5 – PHƯƠNG PHÁP MÃ HÓA MELP/MELPe TRONG BỘ VOCODER 38 5.1 Mô tả tổng quan 38 5.2 Thuật toán Vocoder MELP/MELPe 39 5.2.1 Khối nén tiếng nói 41 5.2.2 Khối giải mã 48 Chương 6 – PHƯƠNG PHÁP MÃ HÓA CELP/ACELP TRONG BỘ VOCODER 54 6.1 Nguyên lý chung của bộ nén CELP 54 6.2 Phương pháp nén LD-CELP 56 6.3 Kỹ thuật nén CS-ACELP và G Nguyên lý kỹ thuật nén CS-ACELP 59 6.3.2 Nguyên lý bộ giải nén CS-ACELP 62 6.3.3 G729A 63 6.3.4 G729B 65 6.4 Kỹ thuật nén G Nguyên lý của bộ nén G Nguyên lý bộ giải nén G723.1 70 Chương 7 – PHƯƠNG PHÁP MÃ HÓA AMBE/IMBE TRONG BỘ VOCODER 71 7.1 Tổng quan 71 7.2 Kỹ thuật MBE 72 Chương 8 – KẾT QUẢ MÔ PHỎNG MỘT SỐ CHUẨN 73 8.1 LPC Vocoder 73 8.2 G729 Vocoder 74 KẾT LUẬN 77 TÀI LIỆU THAM KHẢO 78 iiiDanh mục các bảng Bảng 2.1 Các chuẩn mã hóa âm thoại chính 18Bảng 6.1 Sự phân bố bit của các tham số của thuật toán CS-ACELP tốc độ 8Kbit/s (Khung 10ms) 59Bảng 6.2 Các tham số bộ nén và giải nén CS-ACELP 63Bảng 6.3 Các thông số WMOPS và MIPS của G 729 và G 729A 65 iiDanh mục các ký hiệu các chữ viết tắt A/D Analog/Digital ACELP Algebraic Code Excited Linear Prediction ADPCM Adaptive Differential Pusle Code Modulation AMBE Advanced Multi- Band Excitation AR Autoregressive CDMA Code Division Multiple Access CELP Code Excited Linear Prediction CS_ACELP Conjugate Structure Algebraic Code Excited Linear Prediction DM Delta Modulation DPCM Differential Pusle Code Modulation DSVD Digital Simultaneous Voice and Data GSM Groupe Speciale Mobile IMBE Improved Multi-Band Excitation LD_CELP Low Delay Code Excited Linear Prediction LP Linear Prediction LPC Linear Prediction Coding LSF Line spectrum frequency MELP Mixed - Excitation Linear Predictive PCM Pusle Code Modulation SID Silence Insertion Descriptor VAD Voice Activity Detector ivDanh mục các hình vẽ, đồ thị Hình 1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người 1 Hình 1.2 Mô hình cơ học cơ quan phát âm người 3 Hình 1.3 Mô hình dạng ống của cơ quan phát âm người 4 Hình 2.1 Dạng sóng âm thanh nguyên thủy 6 Hình 2.2 Dạng sóng của tín hiệu 7 Hình 2.3 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số 7 Hình 2.4 Thực hiện việc lấy mẫu 8 Hình 2.5 Kết quả của việc lấy mẫu các giá trị 8 Hình 2.6 Dạng sóng được tái tạo lại 8 Hình 2.7 Mô hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số 9 Hình 2.8 Phân tích các thành phần hình Sin của Stochastic 12Hình 2.9 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc 12Hình 2.10 Phân tích tín hiệu âm thanh theo mô hình Sin + Nhiễu + Nốt đệm 13 Hình 2.11 Tổng hợp LPC 14 Hình 2.12 Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu 15 Hình 2.13 Ví dụ về thay đổi tần số lấy mẫu với L/M = 3/2 16 Hình 3.1 Mô hình tổng hợp tiếng nói theo phương pháp LPC 23 Hình 4.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính 29 Hình 4.2 Bộ lọc lỗi dự đoán 30 Hình 4.3 Mô hình LPC tổng hợp tiếng nói 33 Hình 4.4 Hình vẽ các khung phi thoại 33 Hình 4.5 Sơ đồ của một khung âm thanh phi thoại 34 Hình 4.6 Sơ đồ khung tín hiệu âm thanh thoại 34 Hình 4.7 Sơ đồ của một khung âm thanh thoại 35 Hình 4.8 Sơ đồ khối của bộ mã hóa LPC 36 Hình 5.1 Sơ đồ khối giải mã MELP 39 vHình 6.1 Sơ đồ nguyên lý của phương pháp tổng hợp CELP 54 Hình 6.2 Sơ đồ khối của bộ nén và giải nén LD_CELP 58 Hình 6.3 Sơ đồ khối bộ nén CS_ACELP 60 Hình 6.4 Sơ đồ khối bộ giản nén CS_ACELP 62 Hình 8.1 Mô phỏng LPC Vocoder 73 Hình 8.2 Tín hiệu nguyên thủy 75 Hình 8.3 Tín hiệu tái tạo 76 viMở đầu Tiếng nói là phương tiện chủ yếu mà con người sử dụng để liên lạc và giao tiếp hằng ngày.
- Ngày nay khi các phương tiện truyền thông phát triển và số người sử dụng các phương tiện liên lạc tăng lên thì mã hoá tiếng nói được nghiên cứu và ứng dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi qua mạng di dộng, qua mạng Internet, qua vệ tinh, v.v.
- Chính vì thế việc mã hoá tiếng nói là vô cùng cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất lượng của cuộc gọi.
- Trong số các công nghệ mã hóa thoại hiện nay thì công nghệ Vocoder là một công nghệ rất ưu việt giúp nén tín hiệu thoại số xuống tốc độ thấp hơn mà chất lượng thoại vẫn đảm bảo ở mức cao.
- Xuất phát từ những vấn đề như vậy nên tôi đã quyết định chọn đề tài : "Nghiên cứu các phương pháp mã hóa thoại trong các bộ Vocoder" với mục đích tìm hiểu quá trình xử lý số tín hiệu thoại nói chung và đặc biệt là một số chuẩn nén trong công nghệ Vocoder.
- Trong quá trình làm luận văn tốt nghiệp, mặc dù tôi cũng đã cố gắng rất nhiều nhưng do trình độ và khả năng nghiên cứu còn nhiều hạn chế nên không thể tránh khỏi những sai sót.
- 1CHƯƠNG 1: CÁC ĐẶC TRƯNG CƠ BẢN CỦA TÍN HIỆU THOẠI Trong chương này, tôi sẽ trình bày một cách khái quát về những đặc trưng, về mô hình hóa và về tính chất cơ bản của quá trình tạo ra tiếng nói.
- Có thể nói đây là những kiến thức cơ bản nhất và là nền tảng cho những nghiên cứu về xử lý tín hiệu thoại sau này.
- Đặc trưng của âm thanh tương tự Mục đích của lời nói là dùng để truyền đạt thông tin.
- Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin.
- Một cách khác để biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.
- Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người Kỹ thuật ghi âm đầu tiên sử dụng các thông số về cơ, điện cũng như trường giúp làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau.
- Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc).
- 2 Trong các thiết bị tương tự hiện đại ngày nay các tiêu chuẩn xử lý thì hầu như không có gì thay đổi mặc dù công nghệ xử lý tốt hơn.
- Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn.
- Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi.
- Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế.
- Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn.
- Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol).
- Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme).
- Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50.
- Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
- Vậy tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây.
- Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh.
- Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại khoảng 60bit/giây.
- Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau.
- Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần quan tâm chung là: 1.
- Việc duy trì nội dung của thông điệp trong tín hiệu thoại 3 2.
- Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại.
- Quá trình tạo ra tiếng nói 1.2.1.
- Mô hình hóa quá trình tạo ra tiếng nói Khi không khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói.
- Sự dao động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh môn).
- Sự đóng mở này sẽ làm cho luồng không khí từ phổi đi lên bị ngắt quãng khác nhau, làm cho tiếng nói tạo ra cũng khác nhau.
- Ngoài sự tác động của các dây thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi của cơ quan phát âm gồm: vòm họng, lưỡi, miệng, khoang mũi và mũi.
- Hình 1.2 biểu diễn mô hình cơ học của cơ quan phát âm.
- Mô hình cơ học cơ quan phát âm người Với mô hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau như trong Hình 1.3.
- Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh và các tần số cộng hưởng này gọi là các tần số formant.
- Các tần số này tạo ra các âm vị khác nhau tuỳ theo hình dáng cơ quan phát âm.
- Mô hình này có thể được biểu diễn một cách chính xác bằng một tập hợp các phương trình toán học.
- Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm, do đó 4trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể.
- Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian.
- có nghĩa là suốt trong một âm vị, các tham số của hệ thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác.
- Mô hình dạng ống của cơ quan phát âm người Ngoài mô hình hoá cơ quan phát âm thì mô hình hoá sự kích thích của luồng không khí từ phổi đi qua thanh môn lên cơ quan phát âm cũng rất quan trọng.
- Tuỳ theo loại âm thanh mà có cách mô hình hoá thích hợp để tiếng nói sau khi tái tạo đạt được chất lượng theo yêu cầu.
- Tính chất cơ bản của quá trình tạo tiếng nói Trong kỹ thuật mã hoá tiếng nói, dựa vào sự dao động của các dây thanh âm người ta chia tiếng nói ra thành hai loại âm chính sau đây.
- Âm hữu thanh (voiced sound): Âm hữu thanh được tạo ra khi các dây thanh âm dao động đóng mở làm ngắt quãng luồng không khí và sự ngắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát âm.
- Do đó với âm hữu thanh, tín hiệu kích thích được mô hình hoá là các xung tuần hoàn.
- Âm vô thanh (unvoiced sound): Âm vô thanh được tạo ra khi luồng không khí đi qua thanh môn tác động lên cơ quan phát âm không theo một qui luật nào cả (không tuần hoàn).
- Do đó với âm vô thanh, tín hiệu kích thích được mô hình hoá tương tự như một nhiễu.
- Nhìn chung, các âm của tiếng nói là một trong hai loại âm trên hoặc là sự kết hợp của chúng.
- 5CHƯƠNG 2 : TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ TÍN HIỆU THOẠI Nội dung chính của chương 2 là những vấn đề cơ bản của xử lý tín hiệu thoại như các kiểu mô hình hóa tín hiệu, các mô hình và kiến trúc xử lý âm thanh đồng thời cũng nêu ra một số chuẩn đánh giá các hệ thống xử lý thoại làm cơ sở để đánh giá tính ưu việt của những phương pháp mã hóa thoại trong các bộ Vocoder được trình bày ở các chương sau.
- Ngoài ra cũng đưa ra một cách khái quát về các bước tiến hành xử lý tín hiệu thoại.
- Hệ thống số xử lý âm thanh 2.1.1.
- Mô hình hóa tín hiệu âm thanh Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong việc khôi phục âm thanh.
- Chất lựơng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù hợp với dữ liệu.
- Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong muốn, mô hình phải tổng quát và không sai lệnh so với giả định.
- Một điều cần lưu ý là trong thực tế hầu hết các tín hiệu âm thoại là các tín hiệu động, mặc dù mô hình thực tiễn thì thường giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang xét.
- Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình chuẩn cho việc phân tích dự đoán tuyến tính.
- Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu nhiễu trắng, P là bậc của mô hình AR

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt