« Home « Kết quả tìm kiếm

Phân loại nhạc Việt Nam theo thể loại dựa trên âm sắc và nhịp điệu


Tóm tắt Xem thử

- Nhạc Việt, phân loại nhạc, rút trích đặc trưng tín hiệu audio, tín hiệu âm nhạc, wavelet rời rạc.
- Trong luận văn này, chúng tôi đề xuất phương pháp rút trích tập đặc trưng bố cục âm sắc của tín hiệu audio bao gồm kết cấu âm sắc (timbral texture) và nhịp điệu (rhythmic content) sử dụng phép biến đổi wavelet rời rạc.
- Dựa trên tập đặc trưng này, phương pháp KNN và SVM được sử dụng để nhận dạng thể loại của các tập tin nhạc.
- Kết quả thực nghiệm cho thấy độ chính xác là 93,75 % và 94 % đối với phương pháp phân loại KNN và SVM tương ứng trên tập đặc trưng về bố cục âm sắc.
- Phân loại nhạc Việt Nam theo thể loại dựa trên âm sắc và nhịp điệu.
- Jayaratne Musical (2013) đã xây dựng hệ thống phân loại nhạc theo thể loại và tập trung vào việc phân tích thông tin từ các tín hiệu audio.
- Nhóm nghiên cứu này trình bày cách tiếp cận trích lọc các đặc trưng từ tín hiệu audio và máy học phục vụ cho việc phân loại tự động thể loại nhạc, trong đó phương pháp phân loại Support Vector Machine (SVM) (Đỗ Thanh Nghị, 2008) (Tao et al.
- Nghiên cứu này tập trung vào việc phân loại bốn thể loại nhạc: Pop, Classical, Jazz và Rock bằng cách sử dụng các chỉ số thống kê về trung bình, độ lệch chuẩn, phương sai, và entropy của các đặc trưng tín hiệu nhạc.
- Ngoài ra, nhiều nghiên cứu khác dựa trên tập các đặc trưng liên quan nhịp điệu, âm sắc, độ cao thấp nốt nhạc,….
- nhạc Bolero Việt, Cải lương, Hát bội và Chèo dựa trên các đặc trưng về bố cục âm sắc.
- Chúng tôi sử dụng phép biến đổi wavelet rời rạc (DWT) để phân tích tín hiệu audio dùng cho việc xác định các đặc trưng về nhịp điệu.
- Chúng tôi cũng trình bày việc lựa chọn các đặc trưng phù hợp vì chúng ảnh hưởng đáng kể đến độ chính xác phân loại..
- 2 CÁC NGHIÊN CỨU LIÊN QUAN Đặc trưng nhạc Việt.
- Mỗi thể loại nhạc là một tập các đặc trưng chung mà người nghe có thể phân biệt nó với những loại nhạc khác từ những bản nhạc khác nhau.
- Những đặc trưng có thể kể như: độ cao thấp nốt nhạc (pitch), âm sắc (timbres), nhịp điệu (rhythm) của bản nhạc hoặc những đặc trưng liên quan đến bố cục nhạc (music texture).
- Một trong những thách thức trong phân loại thể loại nhạc tự động là tìm ra các đặc.
- Trong bài báo này, do giới hạn thời gian, chúng tôi tập trung nghiên cứu xây dựng hệ thống phân loại nhạc tự động để phân loại các bản nhạc thuộc một trong các thể loại: nhạc Bolero Việt, Cải lương, Hát bội và Chèo dựa trên các đặc trưng về bố cục âm sắc và nhịp nhạc.
- Đây thật sự là thách thức đối với các hệ thống phân loại nhạc Việt.
- Ngoài ra, vấn đề đặt ra đối với chúng ta là: cần tìm ra tập các đặc trưng về âm nhạc, đặc biệt là đối với nhạc Việt Nam, từ đó đưa ra các thuật toán rút trích các đặc trưng từ tín hiệu audio phục vụ cho việc phân loại nhạc.
- Phương pháp phân loại KNN.
- Bên cạnh đó, bộ huấn luyện được huấn luyện từ chính các vectơ đặc trưng rút trích từ tín hiệu audio.
- Nó xử lý tốt với tập dữ liệu nhiễu do dựa trên khoảng cách giữa các vectơ đặc trưng để quyết định phân lớp, do đó nó phù hợp với hệ thống phân loại nhạc..
- Phương pháp phân loại SVM.
- Trên thực tế, tất cả các đặc trưng của tín hiệu audio khi đưa trực tiếp vào các mô hình phân loại sẽ làm giảm đi rõ rệt tốc độ huấn luyện và phân loại..
- Rút trích đặc trưng là một trong những kỹ thuật tiền xử lý tín hiệu nhạc được sử dụng phổ biến trong việc phân loại.
- và chỉ chọn các thông tin cần thiết cho việc phân loại nhạc.
- Hình 4: Sơ đồ rút trích đặc trưng từ một tín hiệu nhạc.
- Nhiều nghiên cứu đã đề xuất các đặc trưng của tín hiệu audio để nhận dạng, phân loại trong các hệ thống nhận dạng, phân loại khác nhau.
- Mỗi nghiên cứu đều đưa ra một số các đặc trưng của tín hiệu audio và phương thức sử dụng để phân loại.
- Các đặc trưng của tín hiệu audio thường được chia làm hai nhóm chính: các đặc trưng trong miền thời gian – tần số và các đặc trưng cảm thụ âm thanh của con người (nhịp điệu, cao độ) (Wongso and Santika, 2014).
- Trong bài báo này, chúng tôi xây dựng hệ thống phân loại nhạc dựa trên hai tập đặc trưng như sau:.
- Các đặc trưng về âm sắc (Timbral Texture Features)..
- Các đặc trưng về nhịp điệu (Rhythmic Content Features)..
- Đặc trưng về âm sắc.
- Tập đặc trưng về âm sắc được sử dụng để biểu diễn các đặc trưng của âm nhạc liên quan đến tiết tấu, âm sắc và nhạc cụ.
- Vectơ đặc trưng về âm sắc được sử dụng trong hệ thống phân loại của chúng tôi bao gồm 19 chiều với các đặc trưng: (Trung bình và độ lệch chuẩn của Spectral Centroid, Rolloff, Flux, ZeroCrossing, LowEnergy, và Trung bình và độ lệch chuẩn của 5 hệ số MFCC đầu tiên).
- Trung bình và độ lệch chuẩn của các đặc trưng này được xác định dựa trên STFT với các cửa sổ phân tích chia tín hiệu đầu vào có độ dài 1s thành các đoạn nhỏ khoảng 20ms.
- Sau đây là các đặc trưng được xác định trên mỗi cửa sổ phân tích:.
- Đặc trưng 1: Spectral Centroid.
- Đặc trưng 2: Rolloff.
- Đặc trưng 3: Flux.
- Đặc trưng 4: Zero-crossings.
- Đặc trưng 5: Low-Energy.
- Khác với các đặc trưng trên, đặc trưng Low- Energy được xác định trên toàn bộ tín hiệu miền thời gian.
- Đặc trưng 6: Các hệ số MFCC (Mel- Frequency Cepstral Coefficients).
- Hình 4 mô tả các bước thực hiện rút trích đặc trưng MFCC từ tín hiệu audio.
- Chi tiết về phương pháp rút trích đặc trưng MFCC (Logan and Beth, 2000) mô tả trong Hình 5..
- Hình 5: Sơ đồ rút trích đặc trưng MFCC Kết quả thu được là một tập đặc trưng MFCC gồm 13 hệ số.
- Đặc trưng về nhịp điệu nhạc.
- Vectơ đặc trưng về nhịp điệu cung cấp rất nhiều thông tin có ích về đặc điểm của các thể loại nhạc..
- Trong bài báo này, chúng tôi sử dụng phương pháp xác định tập đặc trưng về nhịp điệu nhạc được đề xuất bởi George Tzanetakis (Tzanetakis et al., 2001) trong việc phân loại nhạc theo thể loại.
- Tập các đỉnh cao nhất của hàm tự tương quan tạo nên biểu đồ nhịp điệu nhạc được sử dụng làm cơ sở cho việc xác định các đặc trưng về nhịp điệu.
- Xác định các đặc trưng về nhịp điệu:.
- Vectơ đặc trưng về nhịp điệu là một vectơ 6 chiều gồm các đặc trưng:.
- A1, A2: Đặc trưng này là độ đo sự khác nhau về nhịp so với các nhịp còn lại của tín hiệu.
- Đặc trưng này biểu diễn mối quan hệ giữa nhịp chính và nhịp phụ đầu tiên..
- Đặc trưng này cho biết độ mạnh của nhịp nhạc..
- Mô hình tổng quát hệ thống phân loại nhạc theo thể loại.
- Chúng tôi đề xuất hệ thống phân loại nhạc theo thể loại gồm 2 pha: rút trích đặc trưng và huấn luyện hoặc phân loại.
- Kết quả sau khi rút trích đặc trưng của tín hiệu audio là một tập gồm các đặc trưng về âm sắc, nhịp điệu.
- Chi tiết việc rút trích đặc trưng được trình bày trong phần III.
- Chúng tôi sử dụng phương pháp biến đổi wavelet rời rạc (DWT) để rút trích đặc trưng về nhịp điệu.
- Phương pháp phân loại KNN và SVM được sử dụng để nhận dạng các thể loại nhạc.
- Quá trình huấn luyện bao gồm việc sử dụng các vectơ đặc trưng đã được gán nhãn thể loại để huấn luyện cho bộ phân loại KNN.
- Từ đó, bộ phân loại sẽ gán nhãn thể loại cho các vectơ đặc trưng mới một cách tự động.
- Mô hình tổng quát hệ thống phân loại nhạc theo thể loại được minh hoạ trong Hình 6..
- Hình 9: Mô hình tổng quát hệ thống phân loại nhạc theo thể loại.
- Tập các đặc trưng sử dụng cho hệ thống phân loại nhạc trong nghiên cứu này bao gồm các đặc trưng sau đây:.
- Các đặc trưng về âm sắc: Gồm 19 đặc trưng:.
- Các đặc trưng về nhịp điệu / tiết tấu: Gồm 6 đặc trưng: A1, A2, RA, P1, P2, SUM được xác định từ biểu đồ nhịp điệu..
- Bảng 2: Ma trận đánh giá độ chính xác phân loại.
- Việc phân loại nhạc được thực hiện chủ yếu dựa vào 2 tập đặc trưng được rút trích từ tín hiệu audio: âm sắc và nhịp nhạc.
- Trường hợp 1: Huấn luyện và nhận dạng nhạc Việt Nam theo thể loại dựa trên các đặc trưng liên quan âm sắc bằng phương pháp KNN và SVM..
- Nghiên cứu chỉ dùng 9 đặc trưng trong tập đặc trưng âm sắc: Trung bình và phương sai của Spectral Centroid, Rolloff, Flux, ZeroCrossing (8), LowEnergy(1) (chưa tính các đặc trưng MFCC) trong việc phân loại nhạc theo thể loại..
- Trường hợp 2: Huấn luyện và nhận dạng nhạc Việt Nam theo thể loại dựa trên các đặc trưng liên quan nhịp điệu bằng phương pháp KNN và SVM.
- Nghiên cứu chỉ dùng 6 đặc trưng liên quan đến nhịp điệu (vectơ đặc trưng 6 chiều) trong việc phân loại nhạc theo thể loại..
- Trường hợp 3: Huấn luyện và nhận dạng nhạc Việt Nam theo thể loại dựa trên các đặc trưng liên quan bố cục âm sắc (nhịp điệu và âm sắc) bằng.
- Nghiên cứu kết hợp 2 tập đặc trưng liên quan đến bố cục âm sắc và nhịp điệu (vectơ đặc trưng 25 chiều) trong việc phân loại nhạc theo thể loại.
- Chúng tôi kiểm tra trên hệ thống với việc rút trích đặc trưng dựa trên một trong các tập đặc trưng trên hoặc kết hợp chúng với nhau và sau đó tìm giá trị tham số k (số láng giềng gần nhất) sao cho hệ thống đạt hiệu quả về độ chính xác phân loại cao nhất..
- Hình 10: Biểu đồ nhịp điệu của bốn thể loại nhạc Chúng tôi thực nghiệm trên hệ thống với việc phân loại dựa trên chỉ một hoặc 2 tập đặc trưng..
- Bảng 3: Độ chính xác phân loại dựa trên 1 tập đặc trưng với giá trị tham số k = 4.
- Tập các đặc trưng ĐT1 (âm sắc) ĐT2 (nhịp điệu).
- Bảng 4: Độ chính xác phân loại dựa trên 2 tập.
- đặc trưng với giá trị tham số k = 4 Tập các đặc trưng.
- Từ kết quả trình bày trong Bảng 3 và Bảng 4, chúng tôi nhận xét: Nếu chúng tôi chỉ sử dụng 1 tập đặc trưng thì việc phân loại nhạc theo thể loại từ tín hiệu audio đạt độ chính xác thấp.
- Vì vậy, chúng tôi tiếp tục kiểm tra trên hệ thống mà trong đó sử dụng cả 2 tập đặc trưng 1 và 2 trong việc phân loại nhạc (tạo nên một vectơ đặc trưng 25 chiều) với mong muốn làm tăng độ chính xác của việc phân loại.
- Trong đó, hệ thống cho kết quả phân loại tốt nhất với k = 4..
- Nguyên nhân là với k = 4 hệ thống phân loại nhạc theo thể loại đề xuất đạt độ chính xác là: 93%.
- Hình 11: Đồ thị biểu diễn độ chính xác phân loại sử dụng kết hợp cả 2 tập đặc trưng.
- Hình 12: Đồ thị biểu diễn độ chính xác trung bình phân loại nhạc dựa vào các tập đặc trưng.
- Từ các kết quả thực nghiệm trên tập dữ liệu kiểm tra biểu diễn trong Hình 8 cho thấy nếu hệ thống chỉ sử dụng một trong 2 tập đặc trưng về âm sắc hoặc nhịp điệu, thì việc phân loại nhạc theo thể loại từ tín hiệu audio được thực hiện nhanh hơn (thời gian thực hiện trung bình là 3 giây) do số chiều của vectơ đặc trưng nhỏ hơn, nhưng độ chính xác của việc phân loại sẽ thấp hơn (đạt khoảng 92,25.
- 93%) so với trường hợp phân loại nhạc dựa trên cả 2 tập đặc trưng này.
- Vì vậy, việc sử dụng kết hợp cả 2 tập đặc trưng âm sắc, nhịp điệu là rất cần thiết đối với hệ thống phân loại nhạc theo thể loại vì nó cho kết quả phân loại khá chính xác..
- Như vậy, phương pháp đề xuất của chúng tôi là kết hợp cả 2 tập đặc trưng âm sắc và nhịp điệu trong việc phân loại nhạc theo thể loại bởi vì hệ thống đưa ra kết quả phân loại với độ chính xác cao (trung bình 93,75%)..
- Thời gian phân loại (thời gian huấn luyện + thời gian rút trích đặc trưng + thời gian xác định thể loại) 1 tập tin nhạc cụ thể sử dụng phương pháp KNN:.
- STT Trường hợp Thời gian phân loại (giây).
- Trong nghiên cứu thực nghiệm này, chúng tôi đề xuất sử dụng các tập đặc trưng được rút trích bởi các công cụ STFT, DWT, bộ phân loại KNN và SVM.
- Nghiên cứu này tập trung vào việc phân loại 4 thể loại nhạc: Bolero Việt, Cải lương, Chèo và Hát bội bằng cách sử dụng kết hợp 2 tập đặc trưng về âm sắc và nhịp điệu.
- xuất của chúng tôi đạt độ chính xác trung bình là 93,75% và 94 % đối với phương pháp phân loại KNN và SVM tương ứng trên tập đặc trưng về bố cục âm sắc.
- nghiên cứu và sử dụng thêm tập đặc trưng cao độ nốt nhạc nhằm nâng cao độ chính xác phân loại