« Home « Kết quả tìm kiếm

XÂY DỰNG CÔNG CỤ NGĂN CHẶN VIỆC TRUY CẬP WEB ĐEN (HÌNH ẢNH, NỘI DUNG)


Tóm tắt Xem thử

- Lọc web, Máy học vector hỗ trợ (SVM), phân lớp văn bản, phân lớp hình ảnh.
- Trong bài báo này, chúng tơi ứng dụng phương pháp phân lớp với Máy học vector hỗ trợ (SVM) để xây dựng một cơng cụ lọc web được tích hợp 2 bộ lọc: bộ lọc văn bản – phân lớp văn bản (text classification) và bộ lọc image – phân lớp hình ảnh (image classification)..
- Với hai bộ lọc này, cơng cụ cĩ thể cấm người dùng truy cập đến trang web cĩ nội dung văn bản khơng mong muốn hoặc loại bỏ các hình ảnh khơng mong muốn khi hiển thị web lên trình duyệt..
- Khơng thể phủ nhận Internet là kho tri thức khổng lồ, một cơng cụ đắc lực hỗ trợ cho việc học tập, nghiên cứu nhưng ngược lại nĩ cũng chứa nhiều mối nguy hiểm tiềm ẩn bên trong, cụ thể là sự lan tràn của các trang web chứa nội dung, hình ảnh khơng lành mạnh, khơng phù hợp với thuần phong mỹ tục của một số quốc gia....
- Các cơng nghệ này đã lỗi thời bởi vì khơng phải bất cứ trang web nào cĩ chứa các từ ngữ “nhạy cảm” đều là trang web khiêu dâm và cũng thật khĩ để ngăn chặn theo URL hoặc IP khi số lượng các trang web sex quá lớn và tăng thêm liên tục.
- Trong ngữ cảnh đĩ, xu hướng chung của các phần mềm lọc web đen ngày nay là dựa trên phân tích nội dung trang web sử dụng kỹ thuật khai mỏ dữ liệu (data mining)..
- Đi theo xu hướng chung đĩ, chúng tơi đã xây dựng một hệ thống lọc web dựa trên kỹ thuật phân lớp, cụ thể là phân lớp văn bản và hình ảnh với SVM..
- Phần 3 giới thiệu các bước nghiên cứu bao gồm: bài tốn phân lớp (phần 3.1), máy học Vector hỗ trợ SVM (phần 3.2), mơ hình hĩa văn bản (phần 3.3), cuối cùng là biểu diễn ảnh bằng đặc trưng SIFT và mơ hình Bag of Words.
- Kết quả nghiên cứu trình bày ở phần 4.
- 2 NGHIÊN CỨU LIÊN QUAN 2.1 Nghiên cứu liên quan.
- Các hệ thống lọc web dựa trên kỹ thuật phân lớp được phát triển gần đây thường dựa trên 3 hướng tiếp cận: phân lớp văn bản, phân lớp hình ảnh và phân lớp dựa trên sự kết hợp nhiều yếu tố (văn bản, hình ảnh/video).
- Du và các đồng sự đã đề xuất một hệ thống lọc web sử dụng thuật tốn tính độ tương đồng của vector văn bản với tập học để phân loại trang web khiêu dâm và khơng khiêu dâm.
- Một nghiên cứu khác của Kim phát triển hệ thống phân loại trang web đen thành nhiều cấp bậc bằng phương pháp phân lớp văn bản với máy học SVM.
- Nghiên cứu của Santos áp dụng giải thuật DMC (dynamic Markov compression) phân lớp văn bản để lọc các website khiêu dâm..
- Phân loại trang web dựa theo kỹ thuật phân lớp hình ảnh cũng cĩ nhiều nghiên cứu.
- Jiao et al.2011 [12] nghiên cứu ứng dụng kỹ thuật phân lớp hình ảnh sử dụng đặc trưng màu sắc và SVM cho hệ thống ngăn chặn các website khiêu dâm.
- Nghiên cứu của Zhao.
- 2010 [13] đề xuất phương pháp kết hợp đặc trưng màu sắc, kết cấu và đặc trưng SIFT cho thuật tốn phân lớp hình ảnh với SVM ứng dụng cho hệ thống phát hiện ảnh khỏa thân trên web..
- Cuối cùng là phương pháp kết hợp thơng tin văn bản và hình ảnh/videos để nhận diện web khiêu dâm.
- 2011 [6] đề xuất phân loại trang web dựa trên đặc trưng được kết hợp giữa văn bản, hình ảnh và video.
- Trang web được đại diện bởi vector W = (w 1 , w 2.
- (1 ≤ i ≤ t) là trọng số các đặc trưng văn bản và w t+j.
- (1 ≤ j ≤ 7) đại diện cho các đặc trưng thứ j của image/videos.
- Nghiên cứu của M.
- Hammami et al.2003 [7] thực hiện kết hợp đặc trưng văn bản và hình ảnh để xây dựng đặc trưng cho trang web, sau đĩ quyết định xem trang web này cĩ thuộc web cấm hay khơng bằng giải thuật cây quyết định.
- 2010 [10] giới thiệu một hệ thống lọc web sử dụng giải thuật phân lớp Nạve Bayes để phân loại trang web dựa vào các đặc trưng url, tiêu đề, từ khĩa và nội dung (văn bản, hình ảnh) của trang web..
- Trong bài báo này, chúng tơi giới thiệu một hệ thống lọc web dựa trên kỹ thuật phân lớp văn bản và hình ảnh với SVM.
- Tuy nhiên khơng thực hiện phân loại trang web bằng cách kết hợp 2 yếu tố nội dung văn bản và hình ảnh trang web mà là xây dựng 2 bộ lọc.
- Bộ lọc text (textfilter) thực hiện phân lớp văn bản tiếng Việt để phân loại trang web và bộ lọc image (imagefilter) dựa trên kỹ thuật phân lớp hình ảnh, thực hiện chức năng “lọc” hình ảnh trang web.
- Hình 1: Sơ đồ hoạt động của hệ thống 3 CÁC BƯỚC NGHIÊN CỨU.
- 3.1 Bài tốn phân lớp.
- Bài tốn phân lớp (phân loại) là một bài tốn kinh điển trong lĩnh vực khai mỏ dữ liệu.
- Mục tiêu của bài tốn là xây dựng một mơ hình phân lớp dựa trên tập dữ liệu học cĩ nhãn (lớp) [14].
- Ví dụ cho sẵn một tập dữ liệu các trang web được gán nhãn là web khiêu dâm hay bình thường, vấn đề là cần một.
- phương pháp huấn luyện để xây dựng một mơ hình phân lớp từ tập dữ liệu mẫu này sau đĩ dùng mơ hình này dự đốn lớp của những trang web mới (chưa biết nhãn)..
- Các ứng dụng thực tế cho thấy, phương pháp SVM cĩ khả năng phân loại khá tốt đối với bài tốn phân loại văn bản cũng như trong nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát hiện mặt người trong các ảnh, ước lượng hồi quy,.
- Hình 2: Phân lớp tuyến tính với SVM Bài tốn cơ bản của SVM là bài tốn phân loại hai lớp: Cho trước n điểm trong khơng gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là +1 hoặc –1, mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này.
- Hình 2 minh họa phân lớp với SVM trong mặt phẳng..
- Giải thuật SVM cơ bản giải quyết được bài tốn phân lớp tuyến tính, tuy nhiên nếu ta kết hợp SVM với phương pháp hàm nhân (kernel – based method), sẽ cho phép giải quyết một số bài tốn phi tuyến bằng cách ánh xạ dữ liệu vào một khơng gian cĩ số chiều lớn hơn.
- Trong giới hạn nghiên cứu này, chúng tơi khơng đi sâu vào giải thuật SVM.
- Các mơ hình phân loại trong nghiên cứu được thực hiện nhờ vào sự hỗ trợ của cơng cụ LibSVM [23]..
- 3.3 Mơ hình hĩa văn bản.
- Để cĩ thể thực hiện phân lớp văn bản với Máy học vector hỗ trợ, mỗi văn bản cần được biểu diễn dưới dạng vector với các thành phần (chiều) của vector này là các trọng số của các từ chỉ mục.
- Như vậy, giai đoạn đầu tiên trong việc vector hĩa văn bản là thực hiện việc tách rời các từ.
- các từ để biểu diễn văn bản được rút ra từ tập các văn bản đang xét gọi là tập đặc trưng..
- Hình 3 minh họa một đoạn văn bản được tách từ bởi VnTokenizer..
- Hình 3: Ví dụ tách từ với VnTokenizer Rõ ràng rằng, các từ trong văn bản cĩ mức độ quan trọng khác nhau đối với văn bản và cả đối với các văn bản khác trong tập văn bản cần phân loại..
- Tuy nhiên các stopword này cĩ số lượng khơng đáng kể, cần thiết phải áp dụng một giải thuật giúp chọn lựa các đặc trưng thật sự hữu ích cho việc phân lớp.
- Một vài thuật tốn giúp lựa chọn các đặc trưng [9] như: ngưỡng tần suất văn bản (Document Frequency thresholding - DF), độ lợi thơng tin (Information Gain - IG), thơng tin tương hỗ (Mutual Information - MI), phương pháp thống kê (CHI), độ mạnh của từ và một số phương pháp khác.
- Trong bài báo này, chúng tơi đã áp dụng phương pháp ngưỡng tần suất văn bản DF cho nghiên cứu này bởi tính đơn giản và hiệu quả của nĩ.
- Phương pháp này tính tần suất văn bản (DF) cho mỗi đặc trưng và loại bỏ những đặc trưng cĩ tần suất văn bản nhỏ hơn ngưỡng cho trước.
- Các đặc trưng cĩ tần suất văn bản thấp sẽ mang ít thơng tin phân loại và thường là dữ liệu nhiễu..
- Sau khi loại bỏ các stopword, các từ cĩ tần số DF thấp, tập đặc trưng cịn lại đĩ là tập hợp các từ.
- “quan trọng” cịn lại để biểu diễn văn bản.
- Việc phân loại văn bản sẽ dựa trên tập đặc trưng này..
- Kế đến, mỗi văn bản trong tập đang xét sẽ được biểu diễn bởi các trọng số của từ.
- TF t,d : là số lần xuất hiện của từ t trong văn bản d..
- DF t : số lượng văn bản cĩ chứa từ t..
- N: tổng số văn bản trong tập dữ liệu đang xét..
- 3.4 Biểu diễn ảnh bằng đặc trưng SIFT và mơ hình BoW (Bag of Words).
- Giống như một từ trong một văn bản text, một tấm ảnh cũng cĩ thể xem là tập hợp các điểm hấp dẫn cục bộ hoặc các điểm nổi bật, là những vùng nhỏ (small regions) chứa nhiều thơng tin cục bộ của ảnh – cịn gọi là các đặc trưng.
- Cĩ nhiều đặc trưng cĩ thể được sử dụng để biểu diễn cho ảnh [16], trong đĩ cĩ đặc trưng cục bộ.
- Người ta thường chia đặc trưng cục bộ thành 2 loại là những điểm trích xuất được từ điểm "nhơ ra".
- Hình 4 mơ tả các bước rút trích đặc trưng SIFT..
- Bước kế tiếp, chúng tơi dùng mơ hình bag of words (BoW để thực hiện kết tập các đặc trưng cục bộ SIFT.
- Mơ hình này dùng một giải thuật (ví dụ như k-means) gom nhĩm các đặc trưng cục bộ SIFT để xây dựng các visual words..
- Sau đĩ gán các đặc trưng cục bộ trên mỗi tấm ảnh vào visual words gần nhất.
- Khoảng cách Euclid thường được sử dụng để tính khoảng cách từ đặc trưng đến visual words gần nhất.
- Hình 4: Các bước rút trích đặc trưng SIFT.
- Chúng tơi cài đặt một http proxy cĩ tích hợp 2 bộ lọc TextFilter (lọc văn bản) và ImageFilter để thực hiện chức năng ngăn chặn việc truy cập vào các trang web đen.
- Khi người dùng truy cập vào trang web cĩ nội dung cấm, cơng cụ sẽ chuyển trình duyệt về trang thơng báo cấm truy cập hoặc sẽ hiển thị trang web nhưng “lọc” lại các ảnh khỏa thân (nếu cĩ).
- Tùy vào số lượng ảnh cĩ trên trang web, thời gian (được tính từ lúc bắt đầu nhập URL vào address bar đến lúc load xong tồn bộ trang web) để trình duyệt cĩ tích hợp proxy với 2 bộ lọc load một trang web cĩ thể chậm hơn vài giây so với trình duyệt thơng thường..
- 4.1 Đánh giá bộ lọc văn bản - TextFilter Tập dữ liệu cho bộ lọc TextFilter là 2518 mẫu tin được tải về từ internet.
- Bảng 2: Tập dữ liệu văn bản.
- Tổng số đặc trưng thu được sau khi tách từ là hơn 50.000 đặc trưng.
- Thực hiện loại bỏ stopword và các đặc trưng cĩ tần số DF<3, cho kết quả cịn lại là 19.587 đặc trưng.
- Trong trường hợp này, các trang web thuộc nhĩm bình thường cĩ nhãn là 0 và các trang khiêu dâm cĩ nhãn là 1..
- Để phân lớp văn bản bằng SVM, chúng tơi sử dụng bộ thư viện LibSVM [23] với cơng cụ grid.py giúp lựa chọn các tham số tối ưu cho giải thuật SVM.
- Thực hiện kiểm nghiệm trên tập kiểm tra cho kết quả phân lớp đạt độ chính xác là 93,65%..
- Để đánh giá hiệu quả thực tế của bộ lọc, chúng tơi thực hiện so sánh khả năng phát hiện các trang web khiêu dâm của cơng cụ với các phần mềm lọc.
- Các chương trình này ứng dụng kỹ thuật lọc theo URL hoặc keyword để chặn các trang web.
- Kết quả này cho thấy việc sử dụng kỹ thuật phân lớp văn bản để phân loại, phát hiện và ngăn chặn các trang web đen thật sự hiệu quả hơn các kỹ thuật khác..
- 4.2 Đánh giá bộ lọc hình ảnh ImageFilter Mơ hình phân lớp cho bộ lọc ImageFilter được huấn luyện từ tập dữ liệu gồm 1905 ảnh (1066 ảnh thuộc nhĩm ảnh khiêu dâm và 839 ảnh khơng khiêu dâm – bình thường).
- Tương tự như dữ liệu văn bản cho bộ lọc TextFilter, tập dữ liệu ảnh này cũng được đặt vào 2 thư mục khác nhau để dễ dàng trong việc gán nhãn.
- Để tìm vector đặc trưng SIFT của ảnh, chúng tơi sử dụng chương trình.
- Ta thu được mơ hình phân lớp với SVM cho độ chính xác ổn định nhất là (76.3255% và 80.1084%) ứng với số visual words là (200 và 3000).
- Hình 6 cho ví dụ về kết quả phân lớp ảnh của bộ lọc ImageFilter..
- Ảnh bên trái là một trang web cĩ chứa ảnh khiêu dâm và bên phải là trang web được hiển thị lên trình duyệt sau khi bộ lọc loại bỏ các ảnh khiêu dâm..
- Trên thực tế các nghiên cứu về phát hiện ảnh khiêu dâm dựa vào đặc trưng SIFT cĩ thể cho kết quả phân lớp rất khác nhau, tùy vào nhiều yếu tố như dữ liệu học, giải thuật phát hiện điểm đặc trưng cục bộ.
- Nghiên cứu của Lopes et al.2009 [18] cho kết quả nhận diện ảnh khiêu dâm sử dụng đặc trưng SIFT với SVM là 65±3%.
- Nghiên cứu khác của Steel et al.
- [19], cho kết quả đánh giá dựa vào chỉ số TPR (true positive rates) là (0.58 và 0.66) tương ứng với FPR (false positive rates) tại (0.1 và 0.2), cao hơn so với phương pháp phân lớp dựa vào màu da cĩ giá trị TPR là (0.49 và 0.61)..
- Trong bày viết này chúng tơi trình bày một hướng tiếp cận trong việc xây dựng cơng cụ lọc web chạy thời gian thực giúp ngăn chặn sự truy cập đến các trang web chứa thơng tin và hình ảnh khiêu dâm, đồi trụy.
- Từ thực nghiệm cho thấy việc áp dụng kỹ thuật phân lớp văn bản tiếng Việt với SVM cho kết quả phân loại với độ chính xác cao (hơn 90.
- Hiện tại cơng cụ chỉ giới hạn trong việc ngăn chặn các trang web khiêu dâm, tuy nhiên việc mở rộng phạm vi lọc của cơng cụ sang các chủ đề khác như lọc các trang web cĩ nội dung phản động, bạo lực được thực hiện tương đối dễ dàng (kể cả đối với người dùng khơng cĩ nhiều kiến thức về khai mỏ dữ liệu) nhờ vào quy trình huấn luyện mơ hình tự động..
- Cần nghiên cứu áp dụng một giải thuật lựa chọn đặc trưng văn bản thật hiệu quả để thu gọn tập đặc trưng, tăng tốc độ tính tốn..
- Xây dựng thêm bộ lọc văn bản tiếng Anh..
- Nghiên cứu kết hợp trích chọn đặc trưng sift với đặc trưng màu da, huấn luyện mơ hình với các tham số của SVM như nghiên cứu của Lopes et al.2009 [18] hoặc Do.
- Phân loại văn bản với Máy học vector hỗ trợ và Cây quyết định.
- Phương pháp trích chọn đặc trưng ảnh trong thuật tốn Học máy tìm kiếm ảnh áp dụng trong bài tốn tìm kiếm sản phẩm