« Home « Kết quả tìm kiếm

LỌC MÔ HÌNH ẢNH HƯỞNG TÚI TỪ TRỰC QUAN VÀ THUẬT TOÁN ARCX4-RMNB


Tóm tắt Xem thử

- LỌC ẢNH VỚI MƠ HÌNH TÚI TỪ TRỰC QUAN VÀ THUẬT TỐN ARCX4-RMNB Nguyễn Minh Trung 1 , Nguyễn Ngọc Hưng 2 và Đỗ Thanh Nghị 3.
- Trong bài này, chúng tơi giới thiệu một phương pháp mới phát hiện những ảnh khiêu dâm dựa trên sự kết hợp giữa phương pháp biểu diễn ảnh bằng các nét đặc trưng khơng đổi với những biến đổi tỉ lệ (Scale-invariant feature transform – SIFT), mơ hình túi từ trực quan (the bag-of-visual-words (BoVW) và giải thuật ArcX4 của Bayes thơ ngây ngẫu nhiên (the Arcx4 of random multinomial naive Bayes ( Arcx4-rMNB.
- Kế tiếp, mơ hình túi từ trực quan được sử dụng để biểu diễn nội dung ảnh.
- Sau bước tiền xử lý, ảnh được biểu diễn bởi một véc-tơ cĩ số chiều rất lớn, chúng tơi đề nghị một giải thuật mới ArcX4 của Bayes thơ ngây ngẫu nhiên cho phép phân lớp hiệu quả dữ liệu cĩ số chiều lớn.
- Để đánh giá hiệu quả của phương pháp đề xuất, chúng tơi thực nghiệm với tập dữ liệu thực tế và kết quả phương pháp của chúng tơi đạt được chính xác 91.75% cho tập dữ liệu nhỏ và 87.93% cho tập dữ liệu lớn..
- Hệ thống này sử dụng mạng nơ-ron (neural networks), máy học véc-tơ hỗ trợ (support vector machines) [21] hoặc rừng ngẫu nhiên (random forests) [3] để học phân lớp ảnh khiêu dâm.
- Một ảnh được biểu diễn bởi tập hợp túi từ trực quan được xây dựng bằng cách áp dụng một giải thuật gom nhĩm lên các véc-tơ mơ tả cục bộ SIFT.
- Giai đoạn tiền xử lý cho ra một tập dữ liệu với số chiều rất lớn (chẳng hạn 2000 chiều hoặc từ trực quan).
- Kế đến, phương pháp máy học véc-tơ hỗ trợ được sử dụng cho phân lớp tập dữ liệu số chiều lớn kiểu này.
- Trong bài báo này, chúng tơi đề xuất sử dụng phương pháp biểu diễn ảnh bằng đặc trưng khơng đổi, mơ hình túi từ trực quan.
- Tiếp đến, chúng tơi đề xuất một giải thuật học mới tên gọi là ArcX4 của Bayes thơ ngây ngẫu nhiên (Arcx4-rMNB) cho phân loại ảnh khiêu dâm.
- Giải thuật Arcx4-rMNB sử dụng phương.
- pháp Arcx4 [2] để xây dựng tuần tự k mơ hình cơ sở Bayes thơ ngây ngẫu nhiên, mỗi phân lớp tập trung hầu hết các lỗi được tạo ra bởi các mơ hình trước đĩ.
- Vì vậy, ArcX4-rMNB cĩ thể giải quyết tập dữ liệu với số chiều lớn (nhiều đặc trưng đầu vào với mỗi đặc trưng chỉ chứa đựng một lượng nhỏ thơng tin cho phân lớp).
- Kết quả thực nghiệm trên hai tập dữ liệu ảnh thực chỉ rằng, đề xuất của chúng tơi đạt được 91,75% đối với tập dữ liệu nhỏ và 87.93%.
- với tập dữ liệu lớn.
- Thuật giải ArcX4-rMNB thực hiện phân lớp tốt hơn so với những thuật giải khác bao gồm cây quyết định C4.5 [17], rừng ngẫu nhiên của (RF-CART [3.
- Phần 2 trình bài phương pháp biểu diễn ảnh sử dụng SIFT và mơ hình BoVW.
- Phần 3 trình bày ngắn ngọn Bayes thơ ngây và thuật giải Arcx4-rMNB của chúng tơi đề xuất cho phân lớp tập dữ liệu với số chiều lớn.
- 2 BIỂU DIỄN ĐẶC TRƯNG KHƠNG ĐỔI VÀ MƠ HÌNH TÚI TỪ TRỰC QUAN.
- Nghiên cứu của chúng tơi dựa trên một mơ hình trong phân tích văn bản: mơ hình túi từ (bag of words model).
- Để cĩ thể áp dụng mơ hình này lên ảnh, trước hết cần phải định nghĩa các “từ” cho ảnh (gọi là các từ trực quan hay visual words để phân biệt với các từ thơng thường trong văn bản).
- Giai đoạn biểu diễn ảnh theo mơ hình này bao gồm 3 bước chính: (i) phát hiện và biểu diễn các nét đặc trưng cục bộ, (ii) xây dựng từ điển các từ trực quan và (iii) biểu diễn ảnh dưới dạng véc-tơ tần xuất..
- Hình 3 mơ tả các bước tạo mơ hình BoVW biểu diễn các ảnh..
- Hình 3: Tạo mơ hình BoVW để biểu diễn ảnh Giai đoạn tiền xử lý cho một tập dữ liệu với.
- 3 THUẬT GIẢI ARCX4-RMNB.
- Việc biểu diễn ảnh bằng túi từ trực quan đưa vấn đề phân lớp ảnh về bài tốn phân loại văn bản sử dụng mơ hình túi từ.
- Cĩ nhiều thuật tốn máy học cho bài tốn này [20], một giải thuật đơn giản Bayes thơ ngây Multinomial Nạve Bayes (MNB [11]) thường được sử dụng để phân lớp văn bản..
- 3.1 Giải thuật Multinomial Nạve Bayes (MNB).
- Phương pháp ước lượng xác suất khi phân lớp một văn bản của mơ hình MNB được trình bày tĩm tắt như sau.
- Khi cĩ một văn bản mới đến là t i thì mơ hình MNB gán lớp cho t i sao cho ước lượng xác suất để t i thuộc vào một lớp c i là lớn nhất hay là tìm giá trị lớn nhất của Pr(c|t i.
- Mặc dù cách tính của MNB đơn giản, nhưng lại cho hiệu quả khá tốt khi phân lớp dữ liệu văn bản [11].
- Tuy nhiên, khi dữ liệu cĩ số chiều quá lớn, mơ hình MNB đơn khơng cịn hiệu quả khi so sánh với mơ hình máy học SVM [21] hay các kỹ thuật tập hợp mơ hình [2], [3] và [9]..
- 3.2 Giải thuật ArcX4-rMNB.
- Trong [2], Breiman đã nghiên cứu phân tích hiệu quả giải thuật học dựa trên cơ sở của hai thành phần lỗi là bias và variance.
- Trong đĩ thành phần lỗi bias là lỗi của mơ hình học và variance là lỗi do tính biến thiên của mơ hình so với tính ngẫu nhiên của các mẫu dữ liệu học..
- Trong nghiên cứu kết hợp nhiều mơ hình phân loại yếu thành tập hợp các mơ hình phân loại để cho tính chính xác cao hơn so với chỉ một mơ hình đơn..
- m phần tử dữ liệu : {(x i , y i )}i=1,m với x i ϵ R n và y i ϵ {1, -1}.
- khởi động trọng số của m phần tử dữ liệu Dist 1 (j) cho j = 1 tới m thực hiện.
- học mơ hình Bayes thơ ngây ngẫu nhiên h i từ tập mẫu S i h i = rMNB(S i.
- tính lại lỗi dự đốn của từng phần tử x j khi sử dụng các bộ phân lớp được xây dựng trước đĩ.
- cập nhật lại trọng số của m phần tử dữ liệu cho j = 1 tới m thực hiện.
- trả về tập T mơ hình Bayes thơ ngây ngẫu nhiên {h i }i=1,T Phân lớp:.
- phân lớp phần tử x: bình chọn số đơng của {h i (x)}i=1,T.
- Giải thuật 1: ArcX4 Bayes thơ ngây ngẫu nhiên Boosting (AdaBoost [9]) là kỹ thuật áp dụng.
- một tập các bộ phân lớp yếu (weak learner) để nâng cao hiệu quả của các bộ phân lớp này bằng cách giảm bias và variance.
- Trong cùng thời điểm [2] cũng đề xuất lớp các giải thuật Arcing nhằm giảm cả bias và variance.
- Theo Breiman, Boosting là một dạng trong lớp giải thuật Arcing.
- Trong đĩ cĩ giải thuật ArcX4 cho kết quả tương tự như AdaBoost..
- Ý tưởng chính của giải thuật ArcX4 (như mơ tả trong giải thuật 1) lặp lại quá trình học của một bộ phân lớp yếu nhiều lần.
- Sau mỗi bước lặp, bộ phân lớp yếu (ví dụ như: Bayes thơ ngây hay cây quyết định) sẽ tập trung học trên các phần tử bị phân lớp sai trong các lần trước.
- Ở bước thứ i, ta lấy tập mẫu S i trên tập dữ liệu và xây dựng mơ hình h i từ tập mẫu S i .
- Lặp lại quá trình này sau T bước, ta sẽ được T mơ hình cơ sở, kết hợp các mơ hình cơ sở này lại ta sẽ cĩ được một bộ phân lớp mạnh.
- ArcX4 thường dùng giải thuật cơ sở là cây quyết định C4.5 [15].
- Chúng tơi đã đề xuất xây dựng giải thuật Bayes thơ ngây ngẫu nhiên.
- Thay vì giải thuật MNB sử dụng tồn bộ tập các thuộc tính (chiều) để dự báo nhãn thì Bayes thơ ngây ngẫu nhiên (rMNB) chỉ sử dụng tập con các thuộc tính được lấy ngẫu nhiên từ tập thuộc tính ban đầu..
- Mặc dù mơ hình đơn của rMNB thì khơng mạnh do quá đơn giản, nhưng khi áp dụng kỹ thuật ArcX4 để xây dựng tập hợp các mơ hình rMNB thì hiệu quả của giải thuật được cải thiện rất nhiều.
- So với mơ hình ArcX4 sử dụng MNB với tập đầy đủ các thuộc tính thì giải thuật ArcX4-rMNB đơn giản, nhanh hơn, hiệu quả phân lớp tốt hơn do khả năng chịu đựng nhiễu cao hơn..
- 4 KẾT QUẢ THỰC NGHIỆM.
- Chúng tơi tiến hành đánh giá hiệu quả của phương pháp đề xuất (mơ hình túi từ trực quan SIFT-BoVW và giải thuật Arcx4-rMNB) cho phát hiện ảnh khiêu dâm.
- Chúng tơi muốn so sánh hiệu quả của giải thuật Arcx4-rMNB với các giải thuật học khác, bao gồm MNB [11], SVM [21], cây quyết định C4.5 [17], AdaBoost của C4.5 (AdaBoost-C4.5 [9]) và rừng ngẫu nhiên (RF-CART [3.
- Chúng tơi tiến hành cài đặt giải 2 giải thuật MNB và ArcX4-rMNB bằng ngơn ngữ lập trình C/C.
- Các giải thuật khác đã cĩ trong các thư viện phần mềm miễn phí, như LibSVM [5], thư viện Weka [22] cĩ sẵn các giải thuật C4.5, RF-CART, AdaBoost- C4.5 và kNN..
- 4.1 Kết quả thực nghiệm.
- Chúng tơi tiến hành thực nghiệm trên hai tập dữ liệu thực.
- Bảng 1: Tập dữ liệu ảnh.
- STT Tập dữ liệu Ảnh khiêu dâm Ảnh thường.
- Để biểu diễn ảnh bằng mơ hình túi từ trực quan, chúng tơi sử dụng giải thuật phát hiện điểm đặc trưng cục bộ Hessian Affine của [16].
- Sau đĩ, thực thi giải thuật k-means [15] để gom nhĩm các véc-tơ mơ tả SIFT vào 3000 clusters tương ứng với 3000 từ trực quan.
- Giai đoạn tiền xử lý tạo ra hai tập (bảng) dữ liệu với 1414 và 1971 phần tử với 3000 chiều tương ứng.
- Để so sánh hiệu suất của các thuật tốn phân lớp, chúng tơi tiến hành phân tích hiệu quả của các thuật tốn phân lớp dựa trên các tiêu chí sau:.
- tp: số ảnh khiêu dâm được mơ hình phân lớp là khiêu dâm.
- fp: số ảnh bình thường bị mơ hình phân lớp là khiêu dâm.
- fn: số ảnh khiêu dâm bị mơ hình phân lớp là bình thường.
- tn: số ảnh bình thường được mơ hình phân lớp là bình thường.
- Chúng tơi đề xuất sử dụng nghi thức kiểm tra chéo (hold-out) được áp dụng để đánh giá hiệu quả của các giải thuật phân lớp.
- Cách làm như sau: lặp lại 3 lần thực nghiệm, mỗi lần thực nghiệm lấy ngẫu nhiên 2/3 tập dữ liệu làm tập.
- huấn luyện mơ hình và 1/3 dữ liệu cịn lại dùng làm tập kiểm tra kết quả phân lớp.
- Chúng tơi cố gắng sử dụng các hàm nhân (kernel function) của thuật tốn SVM gồm hàm đa thức bậc d, Radial Basis Function (hàm nhân RBF của hai điểm dữ liệu x i , x j là K[i, j].
- Giải thuật SVM sử dụng hàm nhân RBF (với.
- Arcx4-rMNB học 200 phân lớp yếu (rMNB) sử dụng 300 chiều ngẫu nhiên để ước lượng các xác suất phân lớp.
- AdaBoost- C4.5 cũng thực hiện phân lớp sử dụng 200 cây..
- Kết quả thu được từ các giải thuật được hiển thị trực quan trong 2 đồ thị như trình bày trong hình 4 (tập dữ liệu nhỏ) và hình 5 (tập dữ liệu lớn).
- Chúng tơi tiến hành so sánh và phân tích kết quả phân lớp dựa trên các tiêu chí Precision, Recall, F1, Accuracy, tỉ lệ TP và TN..
- Hình 4: Kết quả phân lớp trên tập dữ liệu nhỏ.
- Hình 5: Kết quả phân lớp trên tập dữ liệu lớn.
- Khi so sánh kết quả thu được bởi giải thuật Arcx4-rMNB với các thuật giải khác.
- Giải thuật ArcX4-rMNB thực hiện hiệu quả hơn giải thuật MNB [11], C4.5 [17], RF-CART [3], AdaBoost of C4.5 [9] qua các tiêu chí đánh giá hiệu quả phát hiện ảnh khiêu dâm như F1- measure và Accuracy.
- Kết quả thực nghiệm cũng cho thấy giải thuật ArcX4-rMNB phát hiện ảnh khiêu dâm chính xác hơn LibSVM nhưng ngược lại LibSVM cho kết quả tốt hơn ArcX4-rMNB đối với các ảnh bình thường.
- Việc ArcX4-rMNB cĩ kết quả tốt khi so sánh với LibSVM là thành cơng lớn bởi vì LibSVM được xem là giải thuật nhận dạng rất chính xác hiện nay..
- Với các kết quả phân lớp này, chúng tơi tin rằng giải thuật ArcX4-rMNB thực hiện tốt cho vấn đề phát hiện ảnh khiêu dâm khi so sánh với các giải thuật như MNB, SVM, cây quyết định C4.5, AdaBoost-C4.5 và rừng ngẫu nhiên RF- CART..
- Chúng tơi vừa trình bày một phương pháp mới đạt được hiệu quả cao trong việc phân lớp các ảnh khiêu dâm.
- kết hợp biểu diễn ảnh bằng mơ hình túi từ trực quan và giải thuật ArcX4-rMNB.
- Sau bước tiền xử lý, ảnh được biểu diễn bởi một véc-tơ cĩ số chiều rất lớn, chúng tơi đề xuất một giải thuật mới ArcX4-rMNB cho phép phân lớp hiệu quả dữ liệu cĩ số chiều lớn.
- Kết quả thực nghiệm trên tập dữ liệu thực tế cho thấy phương pháp của chúng tơi đề xuất đạt được chính xác 91.75%.
- cho tập dữ liệu nhỏ và 87.93% cho tập dữ liệu lớn.
- Giải thuật ArcX4-rMNB thực hiện tốt hơn các thuật giải cây quyết định C4.5 [17], AdaBoost của C4.5 (AdaBoost-C4.5 [9]) và rừng ngẫu nhiên (RF-CART [3.
- So sánh hiệu quả với các giải thuật như MNB, SVM, cây quyết định C4.5, AdaBoost-C4.5 và rừng ngẫu nhiên RF-CART cũng cho thấy rằng giải thuật ArcX4-rMNB thực hiện tốt cho vấn đề phát hiện ảnh khiêu dâm..
- Trong tương lai, chúng tơi dự định ứng dụng phương pháp đề xuất vào vấn đề phân lớp video khiêu dâm.
- Bên cạnh đĩ, chúng tơi cũng muốn tăng tốc quá trình xây dựng mơ hình học ArcX4-rMNB bằng việc xây dựng giải thuật song song.