« Home « Kết quả tìm kiếm

Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói


Tóm tắt Xem thử

- PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH.
- Mô hình dự đoán tuyến tính tín hiệu tiếng nói.
- Tính chu kỳ trong tín hiệu tín hiệu tiếng nói .
- Xác định chu kỳ tín hiệu (tần số cơ bản .
- Tín hiệu kích thích .
- 16 Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh.
- Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh.
- 22 Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh.
- 39 Hình 3.13 Tín hiệu gốc và tín hiệu sai số LPC.
- 40 Hình 3.14 So sánh phổ của tín hiệu gốc và tín hiệu sai số.
- 42 Hình 3.16 Đồ thị thời gian của tín hiệu sai số LPC và sai số Pitch.
- 55 Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng.
- 86 Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc và tín hiệu sau lọc trọng số.
- 90 Hình 5.4 Bộ mã hóa AbS-LPC biến đổi Hình 5.5 Bộ mã hóa AbS-LPC với nhiều loại tín hiệu kích thích khác nhau.
- 106 Hình 6.2 Tín hiệu sai số với bộ lọc LPC bậc 1.
- 108 Hình 6.3 Tín hiệu sai số với bộ lọc LPC bậc 10.
- 108 Hình 6.4 So sánh kết quả phổ tín hiệu với các bộ lọc LPC bậc khác nhau.
- 109 Hình 6.5 Tín hiệu tổng hợp của một đoạn tiếng nói nguyên âm "a".
- Để mô hình hóa bộ máy phát âm dùng trong mã hóa tiếng nói người ta coi như một bộ lọc, do đó phải dựa trên cơ sở của các bộ lọc số trong xử lý tín hiệu.
- Cuối cùng để thiết Luận văn cao học ĐTVT Trần Ngọc Tuấn 2kế được các bộ mã hóa trong các hệ thống số, phải dựa trên cơ sở lý thuyết xử lý số tín hiệu DSP.
- Các bộ mã hóa được chia làm 2 loại chính là mã hóa dạng sóng và mã hóa tham số như sau: Luận văn cao học ĐTVT Trần Ngọc Tuấn 4• Bộ mã hóa xấp xỉ dạng sóng: Duy trì dạng sóng của tín hiệu gốc.
- Bộ mã hóa tham số: Các bộ mã hóa tạo ra tín hiệu tiếng nói nhưng sẽ không hội tụ về tín hiệu gốc khi giảm sai số lượng tử hóa.
- Các bộ mã hóa theo tham số sử dụng một tập các tham số mô hình để mô hình hóa tín hiệu tiếng nói.
- Bộ giải mã tổng hợp lại tín hiệu dựa trên mô hình với các tham số nhận được.
- Các hệ số của bộ lọc dự đoán tuyến tính, công suất tín hiệu, sự lựa chọn tín hiệu kích thích (là xung tuần hoàn hay tạp âm) và chu kỳ tín hiệu của đoạn tín hiệu tiếng nói được ước lượng và truyền đến bộ giải mã.
- Mã hóa điều hòa hay mã hóa dạng Sin biểu diễn tín hiệu tiếng nói thành tổng của các hàm Sin.
- Các tham số mô hình ở đây là biên độ, tần số và pha Luận văn cao học ĐTVT Trần Ngọc Tuấn 6của hàm Sin thường được ước lượng từ phổ của tín hiệu.
- Vì vậy dạng sóng của tín hiệu gốc cũng không được bảo tồn trong trường hợp này.
- Các bộ mã hóa dạng sóng tối thiểu hóa sai số giữa dạng sóng của tín hiệu tổng hợp và tín hiệu gốc.
- Gần đây, những bộ mã hóa dựa trên phương pháp phân tích nhờ tổng hợp trong miền thời gian như dự đoán tuyến tính kích thích bằng mã CELP (Code Excited Linear Prediction), sử dụng mô hình ống dẫn thanh và dự đoán thời gian dài LTP (Long-Term Prediction) để mô hình hóa sự liên kết giữa các mẫu tín hiệu.
- Bộ mã hóa CELP lưu tín hiệu vào bộ đệm và xử lý phân tích theo từng khối, sau đó truyền đi các hệ số của mô hình bộ lọc dự đoán cùng với chỉ số của vectơ kích thích.
- Khi giảm tốc độ Luận văn cao học ĐTVT Trần Ngọc Tuấn 7bit, chất lượng của các bộ mã hóa này lại càng giảm nhất là với một số dạng tín hiệu.
- Điều đó cho thấy một nguyên lý mã hóa không thích hợp để mã hóa tất cả các dạng tín hiệu tiếng nói.
- Để khắc phục điều này, các bộ mã hóa lai đã kết hợp các phương pháp mã hóa khác nhau để mã hóa dạng tín hiệu tiếng nói trong các đoạn tín hiệu khác nhau.
- Nhiễu nền có thể ảnh hưởng đến quá trình tính toán các tham số của tín hiệu tiếng nói vì vậy bộ mã hóa cần phải được thiết kế để có thể duy trì hoạt động tốt trong mọi điều kiện.
- Chúng được sử dụng rộng rãi trong thông tin dùng chuyển mạch gói dùng các phương pháp nén tín hiệu.
- Để đánh giá chất lượng tiếng nói, tỷ số tín hiệu tạp âm SNR được dùng với nhũng bộ mã hóa dạng sóng, thường với tốc độ bit trên 16kb/s.
- Đồ thị biên độ thời gian của một đoạn tín hiệu vô thanh và hữu thanh được biểu diễn trên hình 3.1.
- Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh t (ms t (ms) Tín hiệu tiếng nói vô thanh Tín hiệu tiếng nói hữu thanh Luận văn cao học ĐTVT Trần Ngọc Tuấn 19Trong nhiều kỹ thuật mã hóa, cần xét đến miền tần số biểu diễn tín hiệu thoại và phép biến đổi Fourier thời gian ngắn rất hay được sử dụng.
- Phép biến đổi Fourier thời gian ngắn đóng một vai trò cơ bản trong việc phân tích tín hiệu tiếng nói trong miền tần số.
- Trong quá trình phân tích tín hiệu tiếng nói, hình dáng và độ dài của cửa sổ có thể tác động đến biểu diễn của tín hiệu thoại sau biến đổi (hoặc những tín hiệu khác).
- Cửa sổ w(n) xác định một phần của tín hiệu tiếng nói để xử lý bằng cách đưa về 0 phần tín hiệu bên ngoài miền xử lý.
- Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh (cửa sổ gồm 220 mẫu (27,5ms.
- Tác động của cửa sổ chữ nhật và cửa sổ Hamming trong phân tích phổ tín hiệu tiếng nói được biểu diễn trên các hình 3.4, 3.5 và 3.6, trên mỗi hình đồ thị (a) biểu diễn tín hiệu cửa sổ s(n)w(k−n) sử dụng cửa sổ chữ nhật và đồ thị (b) biểu thị độ lớn theo dB của phổ tín hiệu Sk(ω).
- Trên hình 3.4 là kết quả của một cửa sổ với 220 mẫu (27,5 ms với tốc độ lấy mẫu 8kHz) cho một đoạn tín hiệu hữu thanh.
- Ta có thể thấy Đường bao phổ tín hiệu gốc0 1 2 3 4 Tần số (kHz Thời gian (số mẫu) Tần số (kHz Thời gian (số mẫu) Tần số (kHz) (a) (b)(c) (d)Biên độ Biên độ Độ lớn (dB) Độ lớn (dB) Luận văn cao học ĐTVT Trần Ngọc Tuấn 23sự tuần hoàn của tín hiệu một cách rõ ràng trên hình 3.4(b) và 3.4(d).
- Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh với chiều dài cửa sổ 220 mẫu.
- Tác động của cửa sổ đối với tín hiệu tiếng nói vô thanh được biểu diễn trên hình 3.5.
- Trong trường hợp này miền thời gian của tiếng nói s(n)w(k−n) biểu diễn trên hình 3.6(a) và (c) không cho ta thấy tính chu kỳ của tín hiệu.
- Điều đó cũng đúng với phổ tín hiệu trên hình 3.6(b) và (d).
- Ta vẫn thấy tác động của cửa sổ chữ nhật và cửa sổ Hamming qua phổ tín hiệu trên hình 3.6(b) và (d).
- Trong phân tích LPC sự liên kết giữa các mẫu tín hiệu tiếng nói gần kề nhau được mô hình hóa và loại bỏ bởi một bộ lọc biến đổi (theo thời gian).
- Liên quan Biên độ Biên độ Độ lớn (dB) Độ lớn (dB) (a) (b) (d) (c Thời gian (số mẫu) Tần số (kHz Thời gian (số mẫu) Tần số (kHz) Luận văn cao học ĐTVT Trần Ngọc Tuấn 26đến kỹ thuật này, một kỹ thuật khác cũng rất quan trọng là dự đoán chu kỳ (pitch) hay tần số cơ bản của tín hiệu.
- Trong kỹ thuật này, sự tương quan dài (sự liên kết của các mẫu nằm xa nhau) của các mẫu tín hiệu được mô hình hóa.
- Vì vậy với phân tích dự đoán tuyến tính, ta sẽ thực hiện như sau : dựa vào tín hiệu s(n) tính toán xác định các tham số aj ( j = 1.
- Nhưng với tín hiệu tiếng nói thì điều này sẽ không đúng khi xét một đoạn dài.
- Tuy nhiên với một đoạn ngắn các mẫu tín hiệu thì ta có thể coi là tín hiệu dừng.
- Tuy nhiên trong xử lý tiếng nói, phân tích dự đoán tuyến tính có thể nói là thành công nhất, nó có thể biểu diễn chính xác tín hiệu tiếng nói với một bộ tham số nhỏ.
- Như đã đề cập ở phần trước, với mô hình biến đổi theo thời gian tự nhiên của tín hiệu thoại.
- Để tổng hợp lại tín hiệu ban đầu s(n) từ tín hiệu sai số e(n) ta thiết lập bộ lọc đảo với hàm truyền đạt A-1(z).
- Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số.
- Đối với mã hóa tiếng nói, tín hiệu tiếng nói thường được lấy mẫu với tần số 8KHz, phân tích phổ với bề rộng 4KHz.
- Bậc p của bộ lọc LPC 108642Tăng ích dự đoán G Luận văn cao học ĐTVT Trần Ngọc Tuấn 39 Hình 3.12 Đường bao phổ của tín hiệu qua các bộ lọc LPC bậc khác nhau.
- u(n), có nghĩa là dãy sai số chính là tín hiệu kích thích.
- Dãy sai số này rất hữu ích để xác định các tham số pitch (chu kỳ) của tín hiệu.
- Một trong những lý do sử dụng dãy sai số là sau khi lọc đảo, tín hiệu tổng hợp e(n) có độ biến thiên phổ thấp hơn so với tín hiệu gốc s(n).
- Điều này được mô tả trên hình 3.13 và 3.14, biểu diễn miền thời gian và tần số của một khung tín hiệu s(n) và e(n).
- Rõ ràng ta thấy phổ của tín hiệu sai số bằng phẳng hơn nhiều.
- 0 1 2 3 4 Tần số (kHz) Độ lớn (dB) p = 8 p = 10 p = 12 p = 16 p = 20 Phổ tín hiệu gốc Luận văn cao học ĐTVT Trần Ngọc Tuấn 40Điều này phù hợp với lý thuyết, cũng vì thế LPC còn được coi là một phương pháp phân tích phổ thời gian ngắn.
- Tính chu kỳ trong tín hiệu tín hiệu tiếng nói.
- (Dự đoán thời gian dài) Mục đích của kỹ thuật này là mô hình hóa sự liên kết còn lại của tín hiệu sai số sau quá trình lọc đảo LPC (hoặc trong tín hiệu tiếng nói gốc), khi các tham số mô hình được sử dụng trong bộ lọc nó sẽ loại bỏ sự tương quan dài nhiều nhất có thể và sẽ làm phẳng phổ tín hiệu.
- Trong kỹ thuật này sử dụng các dãy sai số để mô hình hóa sự tương quan dài (mà không sử dụng tín hiệu gốc) vì vẫn đảm bảo được các hiệu ứng của các formant trong quá trình phân tích và xác định chu kỳ (pitch) tín hiệu.
- (3.59) Luận văn cao học ĐTVT Trần Ngọc Tuấn 44Vì đây là tín hiệu rời rạc nên kỳ vọng trên có thể được tính bằng tổng hữu hạn các giá trị trung bình.
- Mỗi phương pháp với những đặc điểm khác nhau, đặc Luận văn cao học ĐTVT Trần Ngọc Tuấn 45biệt với tín hiệu vào có nhiễu.
- Đồ thị biểu diễn tín hiệu sai số LPC và tín hiệu (kích thích thứ cấp) sau lọc đảo LTP trên hình 3.16.
- Luận văn cao học ĐTVT Trần Ngọc Tuấn 46 Hình 3.16 Đồ thị thời gian của tín hiệu gốc, tín hiệu sai số LPC và sai số Pitch.
- Biên độ Thời gian (số mẫu) Tín hiệu gốcTín hiệu sai số LPCTín hiệu sai số Pitch Luận văn cao học ĐTVT Trần Ngọc Tuấn 47 Hình 3.17 Biến thiên của β trong một đoạn tín hiệu tiếng nói điển hình.
- Hình 3.18 Biến thiên của τ trong một đoạn tín hiệu tiếng nói điển hình.
- Xác định chu kỳ tín hiệu (tần số cơ bản).
- Hoạt động của các bộ dự đoán có thể bị ảnh hưởng nếu bắt đầu đoạn tín hiệu thoại là tín hiệu hữu thanh.
- Khi mô hình hóa tín hiệu hữu thanh, khoảng giữa các chu kỳ (tần số cơ bản) được cho bởi 2π/τ.
- Tách chu kỳ sử dụng những đặc tính tần số của tín hiệu tiếng nói.
- Tách chu kỳ sử dụng nhũng đặc tính thời gian của tín hiệu tiếng nói.
- Tách chu kỳ sử dụng nhũng đặc tính thời gian và tần số của tín hiệu tiếng nói.
- Tín hiệu chu kỳ luôn có những khoảng tín hiệu giống nhau trong miền thời gian.
- Hình 3.19(b) biểu diễn hàm tự tương quan của một đoạn tín hiệu hữu thanh.
- (3.72) Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan và hàm AMDF (a) Tín hiệu tiếng nói gốc, (b) hàm tự tương quan, (c) hàm AMDF Trễ Trễ0 TpChu kỳ (Pitch) t 0(a) (b) (c) Luận văn cao học ĐTVT Trần Ngọc Tuấn 52Trái ngược với hàm tự tương quan tính toán sự giống nhau của tín hiệu, hàm AMDF xác định sự khác nhau của tín hiệu.
- Hình 3.19(c) là một ví dụ về hàm AMDF cho một đoạn tín hiệu hữu thanh.
- Một số nghiên cứu đã đưa ra cách xác định trực tiếp sự giống nhau của tín hiệu như sau.
- Các phương pháp tách chu kỳ pitch trong miền tần số sẽ thực hiện trực tiếp trên phổ của tín hiệu thoại.
- Để xác định chu kỳ trong miền tần số ta phải xác định đỉnh của phổ tín hiệu tại tần số cơ bản.
- (3.78) và lấy tương quan với phổ của tín hiệu tiếng nói.
- Kết quả của phép tương quan Ac(ω0) là tổng trọng số của các đỉnh lược như sau: Luận văn cao học ĐTVT Trần Ngọc Tuấn maxmin22mckmASkWkωωππωωωωττΩ==≤≤Ω∑ (3.79) Trong đó Ωm là bề rộng phổ tín hiệu thoại.
- Phương pháp này xác định chu kỳ pitch bằng cách so sánh phổ tín hiệu thoại với phổ của tín hiệu tổng hợp được.
- (3.84) Hình 3.22 Phổ tín hiệu gốc và tín hiệu tổng hợp dùng phương pháp phổ đồng dạng (spectrum similarity).
- Một ví dụ về phổ của tín hiệu gốc và tín hiệu tổng hợp với chu kỳ pitch chính xác được biểu diễn trên hình (3.22).
- Dàn phẳng phổ tín hiệu.
- Việc loại bỏ cấu trúc formant của tín hiệu thoại gọi là dàn phẳng phổ tín hiệu.
- Phương pháp dàn phẳng phổ tuyến tính sử dụng bộ lọc đảo LPC để loại bỏ các formant của tín hiệu thoại.
- Với dàn phẳng phổ phi tuyến thường sử dụng các kỹ thuật cắt đoạn giữa tín hiệu thoại

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt