« Home « Kết quả tìm kiếm

Tìm kiếm ảnh theo nội dung và ngữ nghĩa


Tóm tắt Xem thử

- TÌM KIẾM ẢNH THEO NỘI DUNG VÀ NGỮ NGHĨA Lư Minh Phúc và Trần Công Án.
- Từ khóa:.
- Học sâu, mạng neural tích chập, ngữ nghĩa, ontology, SPARQL, tìm kiếm ảnh Keywords:.
- Trong những năm gần đây, các nghiên cứu về tìm kiếm ảnh theo nội dung đang được quan tâm vì phương pháp tìm kiếm này có thể khắc phục nhược điểm của phương pháp tìm kiếm dựa trên meta data là không bị ảnh hưởng bởi sự thiếu hoặc sai của meta data kèm theo ảnh.
- Trong nghiên cứu này, chúng tôi sẽ xây dựng một hệ thống tìm kiếm ảnh theo nội dung dựa trên việc phân loại tập ảnh theo nội dung bằng mô hình mạng neural tích chập (CNNs) của kỹ thuật học sâu (deep learning).
- Đồng thời, chúng tôi sẽ kết hợp ngữ nghĩa vào quá trình tìm kiếm để cho phép mở rộng thêm kết quả tìm kiếm ảnh theo những khái niệm ngữ nghĩa mà con người đã chấp nhận, so với ý nghĩa của những thông tin có được từ những đặc trưng của ảnh..
- Việc kết hợp ngữ nghĩa vào quá trình tìm kiếm sẽ dựa trên một domain ontology do chúng tôi xây dựng để mô tả các mối quan hệ ngữ nghĩa giữa các chủ đề ảnh.
- Kết quả thực nghiệm cho thấy mô hình CNNs phân lớp tập ảnh kiểm thử đạt độ chính xác là 85,75% và việc kết hợp ngữ nghĩa cho phép mở rộng và đa dạng hóa kết quả tìm kiếm, đặc biệt hữu ích trong các trường hợp từ khóa tìm kiếm có nhiều từ đồng nghĩa hoặc nhập nhằng..
- Tìm kiếm ảnh theo nội dung và ngữ nghĩa.
- Đây là một thách thức lớn cho việc tổ chức và tìm kiếm ảnh theo cách truyền thống.
- Vì vậy, việc xây dựng một hệ thống tìm kiếm ảnh là một điều cấp bách và cần thiết.
- Các hệ thống tìm kiếm ảnh hiện tại thường sử dụng phương pháp là tìm kiếm ảnh theo các văn bản đi kèm với ảnh (meta-data) hoặc theo nội dung (sự tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu quả.
- Tuy nhiên, hai phương pháp tìm kiếm ảnh trên vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa chính xác hoặc chưa làm hài lòng hoàn toàn người sử dụng.
- Đối với phương pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả (meta- data) kèm theo ảnh sẽ không chính xác khi các mô tả này bị sai sót hoặc không tồn tại..
- Kế đến là phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng, đặc trưng cục bộ được rút trích từ ảnh.
- Phương pháp này có hạn chế là làm cách nào để xác định và chọn ra được những đặc trưng đại diện có ảnh hưởng cao đến độ chính xác của kết quả tìm kiếm? Quá trình chọn lựa này sẽ gây mất nhiều thời gian trong quá trình xây dựng hệ thống.
- ngoài ra, còn phát sinh vấn đề do sự cách biệt ngữ nghĩa (semantic gap) giữa đặc trưng ở mức thấp dưới dạng các pixel ảnh và mức khái niệm cao theo sự chấp nhận của con người như sunset, dog,....
- Do đó, trong nghiên cứu này, chúng tôi sẽ đề xuất một phương pháp để xây dựng một hệ thống tìm kiếm ảnh theo nội dung dựa trên mô hình học sâu là mạng neural tích chập (CNNs) nhằm tận dụng tối đa sức mạnh tính toán của máy tính trong việc tìm kiếm hình ảnh theo nội dung.
- Đồng thời, hệ thống cũng tích hợp ngữ nghĩa vào việc tìm kiếm dựa trên một domain-ontology để mô tả các mối quan hệ giữa các chủ đề ảnh cần phân lớp.
- Phương pháp tìm kiếm này không những khắc phục được các hạn chế của phương pháp tìm kiếm dựa trên meta- data mà còn cho phép mở rộng và đa dạng hóa kết quả tìm kiếm thông qua việc kết hợp ngữ nghĩa vào việc tìm kiếm..
- Phần một giới thiệu sự cần thiết của các hệ thống tìm kiếm ảnh và nhược điểm của phương pháp tìm kiếm ảnh theo meta-data..
- Phần ba trình bày về kiến trúc của hệ thống, phân loại ảnh bằng CNN và tìm kiếm theo ngữ nghĩa.
- Phần bốn đánh giá kết quả tìm kiếm ảnh qua thực nghiệm và phần cuối sẽ trình bày kết luận về nghiên cứu..
- 2 CÁC NGHIÊN CỨU CÓ LIÊN QUAN Hiện nay, có nhiều công cụ và công trình nghiên cứu khác nhau liên quan đến việc xây dựng hệ thống.
- tìm kiếm ảnh nhằm cải tiến hiệu quả tìm kiếm ảnh để đáp ứng nhu cầu của người dùng ngày càng tốt hơn..
- Google Images Search là một trong các công cụ tìm kiếm ảnh được sử dụng phổ biến nhất hiện nay..
- Công cụ này cho phép người sử dụng nhập các từ khóa liên quan đến ảnh cần tìm và thực hiện việc tìm kiếm thông qua việc phân tích các meta-data và văn bản đi kèm với ảnh.
- Phương pháp này cho kết quả tương đối tốt, đáp ứng nhu cầu cơ bản của người sử dụng.
- Tuy nhiên, các kết quả trả về sẽ không đúng với yêu cầu đặt ra khi các meta-data đi kèm với ảnh bị thiếu hoặc sai sót và khi những từ khóa truy vấn mang ý nghĩa nhập nhằng.
- “apple” để tìm hình quả táo thì kết quả trả về đầu tiên không thỏa mãn như được minh họa trong Hình 1..
- Bing cũng là một trong các bộ máy tìm kiếm thông dụng được phát triển bởi Microsoft.
- Đây là một bộ máy tìm kiếm ảnh mạnh mẽ với cơ sở dữ liệu ảnh lớn.
- Bing cho phép người dùng tìm kiếm ảnh bằng cách nhập câu truy vấn ảnh và tìm kiếm dựa trên các meta-data hoặc văn bản đi kèm với ảnh..
- Cũng tương tự như Google Images Search, công cụ tìm kiếm này cũng gặp những vấn đề đã đề cập bên trên như được minh họa trong Hình 2 với truy vấn.
- Hình 1: Tìm kiếm với từ khóa “apple”.
- Hình 2: Tìm kiếm với từ khóa “hoa tình yêu”.
- Picsearch là công cụ chuyên tìm kiếm ảnh bằng cách chỉ mục các ảnh trên web với hơn 3 tỷ ảnh..
- Người dùng có thể nhập từ khóa cần tìm kiếm vào và hệ thống sẽ tìm kiếm ảnh chủ yếu dựa trên các meta-data đi kèm với ảnh.
- Cũng tương tự như hai bộ máy tìm kiếm trên, Picsearch cũng gặp những vấn đề như đã đề cập bên trên như được minh họa trong Hình 3..
- Khác với các công cụ tìm kiếm trên, Incogna là một công cụ tìm kiếm ảnh dựa trên nội dung.
- Các ảnh trong bộ máy tìm kiếm này được phân lớp sẵn dựa trên nội dung của ảnh và người dùng có thể tìm.
- ảnh dựa vào nội dung.
- Do đó, công cụ tìm kiếm này có thể khắc phục các hạn chế của các bộ máy tìm kiếm trên.
- Hình 4 minh họa kết quả tìm kiếm trên Incogna với từ khóa “obama family”..
- Hình 3: Tìm kiếm với từ khóa “hoa tình yêu”.
- Hình 4: Kết quả tìm kiếm với từ khóa.
- Trong nghiên cứu của Magesh và Thangaraj đã đề xuất một phương pháp tìm kiếm ảnh bằng nội dung dựa trên các mô tả được định nghĩa bằng ngôn ngữ RDF (Resource Description Framework) gán kèm theo mỗi ảnh (Liu et al., 2007.
- (2003), các tác giả đã trình bày một phương pháp tìm kiếm ảnh theo ngữ nghĩa bằng cách kết hợp meta-data đi kèm với ảnh và ontology của công nghệ web ngữ nghĩa.
- Ưu điểm của phương pháp này là dùng ontology để tạo một mạng ngữ nghĩa cho những thông tin có liên quan đến các ảnh trong bộ máy tìm kiếm.
- Do đó, phương pháp tìm kiếm này có thể gợi ý những hình ảnh có liên quan về ngữ nghĩa ngoài các kết quả tìm kiếm dựa trên meta-data..
- Nghiên cứu gần đây của Shabaz Basheer Patel và Anand Sampat đã sử dụng kỹ thuật học sâu theo sự kết hợp giữa mạng CNNs để phân lớp ảnh và mạng RNNs để phân tích ngôn ngữ tự nhiên câu truy vấn nhằm xây dựng hệ thống tìm kiếm ảnh bằng ngôn ngữ tự nhiên (Patel and Sampat, 2017)..
- Phương pháp này có ưu điểm là việc tìm kiếm không cần meta-data.
- Ngoài ra, kết hợp ngôn ngữ tự nhiên trong tìm kiếm giúp cho người dùng có thể đưa ra các truy vấn tìm kiếm một cách tự nhiên, gần gũi hơn..
- 3 HỆ THỐNG TÌM KIẾM ẢNH THEO NỘI DUNG VÀ NGỮ NGHĨA.
- 3.1 Kiến trúc của hệ thống.
- Trong nghiên cứu này, hệ thống tìm kiếm ảnh sẽ không hỗ trợ tìm kiếm theo dạng ngôn ngữ tự nhiên mà chỉ hỗ trợ người dùng tìm theo từ khóa hoặc nội dung ảnh truy vấn theo những chủ đề ảnh đã định trước.
- Kiến trúc của hệ thống tìm kiếm ảnh theo nội dung kết hợp với ngữ nghĩa được trình bày trong Hình 5.
- Hệ thống này được xây dựng dựa trên mô hình phân loại ảnh CNNs và kết hợp với domain ontology để hỗ trợ tìm kiếm theo ngữ nghĩa..
- Hình 5: Kiến trúc của hệ thống 3.2 Xây dựng mô hình phân lớp ảnh bằng CNNs.
- Ví dụ: trong bài toán nhận dạng các số từ 0 đến 9, thì sẽ có 10 feature map trong tầng output và feature map nào có giá trị cao nhất sẽ được dùng làm kết quả của bài toán..
- 3.3 Tìm kiếm theo ngữ nghĩa.
- Trong hệ thống này, chúng tôi dùng ontology làm cơ sở cho việc kết hợp ngữ nghĩa vào tìm kiếm..
- Ontology là một phương thức biểu diễn tri thức chuẩn cho web ngữ nghĩa (Liu et al., 2008).
- Dựa vào CSDL ảnh của hệ thống, chúng tôi xây dựng ontolgy cho một miền tri thức (domain- ontology) của các chủ đề ảnh để mô tả các khái niệm, các mối quan hệ ngữ nghĩa giữa chúng.
- Hình 11: Domain ontology của hệ thống Các mối quan hệ được biểu diễn trong miền tri thức này bao gồm quan hệ về cha con như những khái niệm Cat, Dog, Lion đều là lớp con của lớp động vật ăn thịt (carnivore).
- Hình 12: Mở rộng từ khóa tìm kiếm với ngữ nghĩa Trong hệ thống này, để thực hiện tìm kiếm theo ngữ nghĩa thì bước đầu tiên là thực hiện mở rộng từ khóa tìm kiếm.
- Bước này được hiện bằng cách xây dựng câu truy vấn SPARQL thích hợp từ các từ khóa tìm kiếm và thực hiện câu truy vấn trên domain- ontology.
- Sau đó, các từ khóa mở rộng được sử dụng để tìm kiếm các ảnh đã được chỉ mục trong hệ thống..
- Hình 12 minh họa thao tác mở rộng kết quả tìm kiếm bằng cách sử dụng CNNs để tìm ra nhãn của ảnh truy vấn của người dùng.
- Sau đó từ khóa mô tả nhãn của ảnh sẽ dùng để xây dựng câu truy vấn SPARQL..
- Cuối cùng sử dụng câu truy vấn SPARQL để tìm và trả về thêm các từ khóa có liên hệ về ngữ nghĩa trong domain-ontology..
- Tập dữ liệu thực nghiệm trong nghiên cứu này được thu thập từ trang web tìm kiếm ảnh Flick.
- 4.3 Xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm.
- Để xây dựng mô hình phân loại ảnh cho hệ thống tìm kiếm, tập dữ liệu thực nghiệm được chia thành 3 tập dữ liệu con là tập huấn luyện (training set) gồm 24.481 ảnh (60.
- Qua quá trình huấn luyện và kiểm tra mô hình mạng neural tích chập đã thu được một số kết quả qua bảng thống kê về thời gian huấn luyện mô hình ở Bảng 1..
- Bảng 1: Kết quả huấn luyện mô hình Thời gian.
- 4.4 Kết quả tìm kiếm ảnh theo ngữ nghĩa Ứng dụng tìm kiếm ảnh này được xây dựng trên nền tảng web, dựa vào kiến trúc đã mô tả trong Phần 3.3.
- Để minh họa cho chức năng tìm kiếm ngữ nghĩa, ứng dụng này cho phép lựa chọn tìm kiếm có hoặc không có ngữ nghĩa.
- Ví dụ, khi tìm kiếm với từ khóa “dog” (con chó), nếu tắt chức năng ngữ nghĩa thì kết quả chỉ trả về những hình ảnh được xếp loại là “dog”, giống như các bộ máy tìm kiếm thông dụng khác..
- Tuy nhiên, khi bật tính năng tìm kiếm kết hợp ngữ nghĩa cho thấy hệ thống không chỉ trả về những ảnh có chủ đề “dog” mà còn có thêm hai loài động vật nữa đó là mèo và sư tử.
- Kết quả thu được như trên là nhờ sự mở rộng thêm ngữ nghĩa cho từ khóa truy vấn bằng domain-ontology của hệ thống.
- Với sự suy luận trên ontology thông qua câu truy vấn SPARQL, mèo và sư tử cũng là loài động vật ăn thịt như loài chó nên các hình ảnh của 2 loài này sẽ được trả về trong kết quả truy vấn mở rộng.
- Kết quả được minh họa trong Hình 15 và Hình 16..
- Hình 15: Tìm ảnh theo nội dung đã chọn về chó nhưng không theo ngữ nghĩa.
- Hình 16: Tìm theo ngữ nghĩa với từ khóa “dog”.
- Hình 17 và Hình 18 minh họa trường hợp ngược lại với trường hợp trên, trong đó hệ thống sử dụng quan hệ hyponym để xác định các từ khóa mở rộng..
- Do không có hình ảnh nào trong hệ thống có chủ đề là “animal” nên khi tìm không ngữ nghĩa với từ khóa này sẽ không có ảnh nào tìm được.
- Tuy nhiên, khi sử dụng ngữ nghĩa thì sẽ trả về hình của một số loại động vật như chó, mèo, sư tử, khỉ, ngựa vằn, công,....
- Hình 17: Tìm kiếm không ngữ nghĩa với từ khóa “animal”.
- Ngoài ra, tính năng ngữ nghĩa hóa của hệ thống còn cho phép chuẩn hóa từ khóa truy vấn của người dùng nên khi tìm kiếm với từ khóa như “hoa hồng”.
- hay “hoa tình yêu” thì hệ thống vẫn tìm kiếm được cùng một chủ đề ảnh như nhau được minh họa trong Hình 19 và Hình 20..
- Nghiên cứu đã xây dựng thành công domain ontology, nó giúp cho việc biểu diễn mối quan hệ ngữ nghĩa giữa các chủ đề ảnh được rõ ràng hơn..
- Ngoài ra, nó còn giúp cho việc chuẩn hóa từ khóa tìm kiếm và đồng thời giúp mở rộng thêm kết quả tìm kiếm.
- từ đó cho thấy được tính khả thi của phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung và ngữ nghĩa..
- Hình 18: Tìm kiếm ngữ nghĩa với từ khóa.
- Hình 19: Kết quả tìm kiếm với từ khóa.
- Hình 20: Kết quả tìm kiếm với từ khóa