« Home « Kết quả tìm kiếm

Phát hiện khuôn mặt đã qua chỉnh sửa


Tóm tắt Xem thử

- PHÁT HIỆN KHUÔN MẶT ĐÃ QUA CHỈNH SỬA.
- Gần đây, các kỹ thuật chỉnh sửa khuôn mặt video, hình ảnh đang dần trở nên phổ biến và dễ tiếp cận hơn.
- Chỉ với vài từ khóa về chỉnh sửa khuôn mặt thì đã xuất hiện hàng loạt các ứng dụng, trang trực tuyến cho phép người dùng chỉnh sửa một cách dễ dàng.
- Do đó, cần phải phát triển một công cụ có thể phát hiện và xác thực mức độ thật giả của một video, hình ảnh đang phát tán trên mạng.
- Bài báo này mô tả cách tiếp cận và sử dụng giải pháp trí tuệ nhân tạo để phát hiện các video, hình ảnh có khuôn mặt đã qua chỉnh sửa.
- Đặc biệt, sử dụng mô hình mạng thần kinh học sâu có tên Xception.
- Một loại mô hình đã được phát triển và kết quả thu được đã được xác minh..
- Từ khóa: Deepfake, Deep Learning, FaceForensics, Fake video, Phát hiện giả mạo..
- 1.1 Mô hình mạng Xception.
- Xception là từ viết tắt của Extreme Inception, là một phiên bản tinh chỉnh và phát triển dựa trên mô hình Inception V3.
- Là một mô hình mạng thần kinh học sâu được công bố bởi tác giả Francois Chollet vào tháng 4 năm 2017 [2].
- Xception có thể học rất sâu mà không làm hỏng đi cấu trúc so với dữ liệu đầu vào, nghĩa là không bị sai sót khi mô hình đi quá sâu..
- Ngoài ra, Xception có thể hoạt động tốt khi chúng ta có dữ liệu rất ít nhưng muốn mô hình học chính xác và không bị quá khớp so với dữ liệu đầu vào, còn gọi là Overfitting.
- Nó sẽ áp dụng rất nhiều bộ lọc để tạo ra nhiều dữ liệu cho việc học sâu..
- So với các loại mô hình mạng thần kinh học sâu khác [6], Xception cho phép giảm các tham số nhưng vẫn giữ được cấu trúc và độ chính xác qua từng lớp, nhằm cải thiện hiệu suất tính toán và thời gian..
- Trong mô hình học sâu được nói đến trong [2], việc tăng số lượng các lớp trong mạng làm giảm độ chính xác, càng đi sâu độ chính xác giữa các lớp sẽ càng thấp vì thế mô hình Xception sử dụng kết nối dư nhằm kết nối trực tiếp đầu vào của lớp n với lớp n+x để giữ được độ chính xác..
- Sử dụng phép tích chập chuyển đổi tách rời theo chiều sâu (Depthwise Separable.
- 1.2 Phương pháp hoạt động.
- Luồng nhập gồm có 4 mô đun, mô đun đầu tiên là 2 lớp tích chập (Convolutional) lần lượt là 32 và 64 bộ lọc.
- Ở mô đun đầu tiên, 2 lớp tích chập tạo ra hình ảnh với nhiều bộ lọc khác nhau nhằm trích xuất những điểm đặc biệt của ảnh như: mắt, mũi, miệng, các góc cạnh đặc biệt của ảnh và làm dữ liệu đầu vào cho các lớp tiếp theo..
- Các mô đun còn lại, mỗi mô đun có 1 lớp tích chập phân tách (Separable Convolutinal) tiếp tục tạo ra nhiều bộ lọc cho ra các chi tiết rõ hơn, 1 lớp gộp tối đa (Max Pooling) nhằm lấy những chi tiết có thuộc tính cao nhất và bỏ qua các chi tiết không quan trọng, sau lớp tích chập phân tích và lớp gộp là 1 hàm kích hoạt.
- Sau mỗi mô đun sẽ được thêm vào 1 lớp tích chập thông thường lấy từ lớp tích chập thông thường cuối cùng ở mỗi mô đun, mục đích giữ lại độ chính xác cho các lớp sau quá trình học sâu, vì học càng sâu thì độ chính xác giữa các lớp sẽ bị giảm đi..
- Luồng giữa có 1 mô đun duy nhất chứa 3 lớp tích chập phân tách và được lặp lại 8 lần..
- Nhằm tạo ra nhiều hình ảnh khác nhau qua việc áp dụng nhiều bộ lọc ngẫu nhiên.
- Luồng xuất có 2 mô đun, mô đun thứ nhất gồm 2 lớp tích chập phân tách và 1 lớp gộp đối đa, học sâu từ bản đồ tính năng của lớp tích chập thông thường được thêm vào.
- Mô đun tiếp theo, có 2 lớp tích chập phân tách và 1 lớp tổng gộp trung bình.
- Sau lớp tổng gộp trung bình là 1 vector được trải ra từ bản đồ tính năng (Feature Map) của lớp tổng gộp trung bình và lớp kết nối đầy đủ tùy chọn (Fully Connecter Layer), cuối cùng là kết nối lại toàn bộ các đặc điểm đã học từ các lớp trước đó và đưa ra kết quả..
- Nhận diện khuôn mặt: sử dụng thư viện DLIB được đào tạo sẵn có trong OpenCV..
- Cắt và thay đổi kích thước ảnh: khối này được sử dụng khi hệ thống không tìm thấy khuôn mặt trong ảnh và được thực hiện ẩn trong quá trình.
- Một trong những lý do có thể là kích thước khuôn mặt trong ảnh (Ví dụ: Một diễn viên đứng quá xa so với máy quay).
- Bước này sẽ cắt bỏ những thứ không phải là khuôn mặt và phóng to ảnh tập trung vào khuôn mặt..
- Kiểm tra tỷ lệ chính xác: khối này được thực hiện để bỏ qua các vật thể không phải là khuôn mặt, giảm thiểu sai sót trong quá trình nhận diện khuôn mặt..
- Theo dõi khuôn mặt: được thực hiện bởi IoU (Intersection over Union) giữa các hộp giới hạn từ 2 khung liên tiếp nhau..
- Phân loại thật giả: cuối cùng, để xác định xem video đầu vào là thật hay giả, hệ thống sẽ kết nối toàn bộ khung hình đã trải qua quá trình phân loại bằng mô hình mạng Xception và đưa ra dự đoán..
- 3 THỬ NGHIỆM.
- 3.1 Dữ liệu thử nghiệm.
- Dữ liệu thử nghiệm được dùng trong bài được trích từ nguồn dữ liệu công khai trên khác phương tiện truyền thông và dữ liệu dùng nhiều nhất là từ Google &.
- Dữ liệu bao gồm 720 video đã qua qua chỉnh sửa (Fake) bằng công nghệ Deepfake, Face2Face, FaceSwap, NeuralTexture, 140 gốc (Real) cho việc thực hiện train và validate.
- Dữ liệu thử nghiệm được lưu dưới dạng khung hình, được tách ra từ video..
- Nguồn dữ liệu FaceForensics, Google &.
- Số liệu dữ diệu sử dụng.
- Thứ tự Phương pháp Số lượng sử.
- 4 NeuralTexture (Fake) 180 video Ngẫu nhiên 10 ảnh/video 5 Gốc - Không chỉnh sửa (Real) 140 video Ngẫu nhiên 30 ảnh/video 3.2 Môi trường thử nghiệm.
- Máy tính cá nhân sử dụng NVIDIA GeForce GTX 1650 Ti, quá trình huấn luyện mô hình trải qua khoảng 12 tiếng..
- Thông số cài đặt thử nghiệm.
- 5 Dữ liệu train 720 video.
- 6 Dữ liệu validate 140 video.
- 7 Dữ liệu test 80 video.
- 8 Thời gian huấn luyện ~12 tiếng 3.3 Kết quả thử nghiệm.
- 3.3.1 Kết quả thực nghiệm với các phương pháp chỉnh sửa video có trong tập huấn luyện.
- Sơ đồ cột thể hiện độ chính xác của hệ thống khi phát hiện trên 4 phương thức chỉnh sửa.
- 70.00%.
- 75.00%.
- 80.00%.
- 85.00%.
- 90.00%.
- 95.00%.
- Khung ảnh giả từ video Neural Textures 3.3.2 Kết quả thực nghiệm với các phương pháp chỉnh sửa video ngoài tập huấn luyện.
- Sơ đồ cột thể hiện độ chính xác của hệ thống khi phát hiện trên các phương pháp ngoài tập dữ liệu huấn luyện.
- Kết quả sai khi thử nghiệm trên video Avatarify.
- Kết quả sai khi thử nghiệm trên video FaceApp.
- Kết quả tương đối chính xác khi thử.
- Kết quả sai khi thử nghiệm trên video Instagram (Khác).
- 10.00%.
- 20.00%.
- 30.00%.
- 40.00%.
- 50.00%.
- 60.00%.
- Tiếp cận và sử dụng mô hình mạng Xception trong việc phát hiện các video, hình ảnh có khuôn mặt đã qua chỉnh sửa đã cho kết quả đáng mong đợi.
- Hệ thống đã có thể phát hiện và phân loại ra các video, hình ảnh là giả mạo hay thật.
- Tuy nhiên, kết quả chỉ nằm ở mức tương đối vì dữ liệu được học còn hạn chế chỉ tập trung vào các công nghệ chỉnh sửa được áp dụng trong tập huấn luyện.
- Nếu có thêm các công nghệ khác ngoài các công nghệ được áp dụng, thì việc đào tạo lại hệ thống là điều phải xảy ra..
- Thực tế, vẫn có rất ít phương pháp hàng đầu có thể áp dụng vào trong lĩnh vực này, việc sử dụng mô hình mạng Xception đã mang lại hiệu quả tốt và cũng có thể xem là phương pháp ổn định nhất cho đến thời điểm hiện tại..
- Hệ thống sẽ được phát triển để bám sát với các vấn đề thực tế như phát hiện giả mạo người khác trong video livestream, trong các cuộc hội, họp trực tuyến và trong các buổi học trực tuyến.
- Ngoài ra, hệ thống cũng sẽ được cải thiện độ chính xác đối với các phương pháp chỉnh sửa ngoài tập huấn luyện..
- Cập nhật thêm nguồn dữ liệu của các phương pháp đã được huấn luyện để hệ thống có thể phát hiện một cách chính xác hơn.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt