« Home « Kết quả tìm kiếm

Thu nhận ngữ nghĩa của ảnh và tìm kiếm theo ngữ nghĩa ảnh số


Tóm tắt Xem thử

- TRẦN VĂN TRUNG THU NHẬN NGỮ NGHĨA CỦA ẢNH VÀ TÌM KIẾM THEO NGỮ NGHĨA ẢNH SỐ Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.
- 8 Chương I: TỔNG QUAN VỀ WEB NGỮ NGHĨA.
- Sự ra đời và khái niệm của Web ngữ nghĩa.
- Những ích lợi mà web ngữ nghĩa mang lại.
- Máy có thể hiểu được thông tin trên web.
- Thông tin được tìm kiếm nhanh chóng và chính xác hơn.
- Kiến trúc công nghệ Web ngữ nghĩa.
- Cấu trúc một tài liệu XML.
- Xây dựng Ontology.
- Phương pháp xây dựng một Ontology.
- Ngôn ngữ biểu diễn Ontology.
- Công cụ xây dựng Ontology (công cụ Protégé.
- 46 Chương III: CHÚ THÍCH NGỮ NGHĨA.
- VÀ TÌM KIẾM NGỮ NGHĨA ẢNH.
- Chú thích ngữ nghĩa ảnh.
- Giới thiệu về chú thích ngữ nghĩa.
- Một số ứng dụng về chú thích ngữ nghĩa ảnh.
- Sử dụng trong quản lý thông tin tư liệu.
- Tìm kiếm ngữ nghĩa.
- Nhu cầu về tìm kiếm ngữ nghĩa.
- Công cụ tìm kiếm ngữ nghĩa.
- 60 Chương 4: THỰC NGHIỆM XÂY DỰNG VÀ KHAI THÁC CÔNG CỤ CHÚ THÍCH VÀ TÌM KIẾM NGỮ NGHĨA ẢNH.
- Xây dựng ontology ảnh.
- Khai thác sử dụng công cụ tìm kiếm.
- 73 5 LỜI CAM ĐOAN Luận văn Thạc sĩ “Thu nhận ngữ nghĩa của ảnh và tìm kiếm theo ngữ nghĩa ảnh số”, chuyên ngành công nghệ thông tin là công trình của cá nhân tôi.
- Các tài liệu tham khảo, nội dung trích dẫn đã ghi rõ nguồn gốc.
- Ngày 11 tháng 9 năm 2015 Tác giả luận văn Trần Văn Trung 6 DANH MỤC THUẬT NGỮ - VIẾT TẮT STT Viết tắt Giải thích 1 RDF Resource Description Framework 2 OWL Ontology Web Language 3 SPARQL Protocol and RDF Query Language 4 RDFS RDF Schema 5 URI Uniform Resouce Identifieres 6 XML eXtensible Markup Language 7 HTML HyperText Markup Language 8 DTD Document Type Definition 9 FOAF Friend of a friend 10 MPEG Moving Picture Experts Group 7 DANH MỤC HÌNH VẼ Hình 1.1: Web ngữ nghĩa như một sự mở rộng của WWW.
- 10 Hình 1.2: Kiến trúc phân tầng của Web ngữ nghĩa năm 2001.
- 12 Hình 1.3: Kiến trúc phân tầng của Web ngữ nghĩa hoàn thiện năm 2006.
- 13 Hình 2.1: Cấu trúc lớp phân cấp.
- 55 Hình 4.1: Cấu trúc lớp trong ontology.
- 62 Hình 4.2: Các Thuộc tính của ontology.
- Lý do chọn đề tài Ngày nay, Word Wide Web đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay.
- Tuy nhiên, lượng thông tin khổng lồ đó cũng tạo ra khó khăn lớn trong việc tìm kiếm thông tin trên WWW.
- Hiện nay, chủ yếu thông tin trên WWW được biểu diễn dưới dạng ngôn ngữ tự nhiên (các trang web sử dụng ngôn ngữ HTML).
- Cách biểu diễn đó phù hợp với con người nhưng lại gây ra nhiều khó khăn cho các chương trình làm nhiệm vụ hỗ trợ tìm kiếm thông tin.
- Chương trình máy tính không thể hiểu được thông tin và dữ liệu biểu diễn dưới dạng thích hợp với con người.
- Sự ra đời của Web ngữ nghĩa (hay Semantic Web) do W3C (The World Wide Web Consortium) khởi xướng đã mở ra một bước tiến của công nghệ Web, những thông tin trong Web ngữ nghĩa có cấu trúc hoàn chỉnh và mang ngữ nghĩa mà máy tính có thể “hiểu” được.
- Những thông tin này, có thể được sử dụng lại mà không cần qua các bước tiền xử lý.
- Phần lớn các máy tìm kiếm hiện nay là dựa trên cơ chế tìm kiếm theo từ khóa, cho nên kết quả tìm kiếm trả về không theo mong muốn của người dùng.
- Do vậy, cần thiết có một hệ thống tìm kiếm ngữ nghĩa (Semantic Search) tìm kiếm trên Web ngữ nghĩa hay trên một mạng tri thức mang ngữ nghĩa, kết quả trả về là các thông tin có cấu trúc hoàn chỉnh mà máy tính có thể “hiểu” được, nhờ đó việc sử dụng hay xử lý thông tin trở nên dễ dàng hơn.
- Ngoài ra, việc xây dựng được một hệ thống tìm kiếm ngữ nghĩa cụ thể sẽ tạo tiền đề cho việc mở rộng xây dựng các hệ thống tìm kiếm trên nhiều lĩnh vực khác nhau, điều này mang một ý nghĩa thiết thực trong đời sống, ví dụ như: tìm kiếm ảnh dựa vào ngữ nghĩa.
- Và đó cũng là lý do luận văn “Thu nhận ngữ nghĩa của ảnh và tìm kiếm theo ngữ nghĩa ảnh số” được em quan tâm và chọn làm luận văn tốt nghiệp.
- Mục đích nghiên cứu, đối tượng, phạm vi áp dụng - Mục đích: Đề tài tập trung nghiên cứu lý thuyết cơ bản về web ngữ nghĩa, chú thích ngữ 9 nghĩa của ảnh và ứng dụng tìm kiếm ảnh dựa vào ngữ nghĩa.
- Tìm hiểu, phân tích kiến trúc của web ngữ nghĩa + Tìm hiểu các ngôn ngữ biểu diễn, truy vấn dữ liệu + Khảo sát, tìm hiểu công cụ xây dựng các ontology ảnh + Tìm hiểu chú thích ngữ nghĩa ảnh và tìm kiếm ngữ nghĩa + Phân tích, khai thác công cụ tìm kiếm ảnh dựa vào ngữ nghĩa - Đối tượng, phạm vi áp dụng: Nghiên cứu kiến trúc của web ngữ nghĩa và chú thích ngữ nghĩa của ảnh.
- Thực nghiệm xây dựng và khai thác công cụ tìm kiếm ảnh dựa vào ngữ nghĩa.
- Nội dung luận văn được chia thành 4 chương: Chương 1: Tổng quan về web ngữ nghĩa Chương 2: Xây dựng Ontology thông tin ảnh Chương 3: Chú thích ngữ nghĩa và tìm kiếm ngữ nghĩa ảnh Chương 4: Thực nghiệm xây dựng và khai thác công cụ chú thích và tìm kiếm ngữ nghĩa ảnh.
- 10 Chương I: TỔNG QUAN VỀ WEB NGỮ NGHĨA 1.1.
- Sự ra đời và khái niệm của Web ngữ nghĩa Thế hệ web đầu tiên với những trang HTML thủ công, thế hệ thứ hai đã tạo nên một bước cho máy thực hiện và thường là các trang HTML động.
- Thế hệ web thứ ba được gọi là “Semantic web”, mang mục đích thông tin sẽ do máy xử lý.
- Một trong những khái niệm về Web ngữ nghĩa được Tim Berners – Lee định nghĩa như sau: “Web ngữ nghĩa là sự mở rộng của WEB hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn”.
- [1] Sự mở rộng của semantic web chính là việc thêm vào trong web hiện tại yếu tố ngữ nghĩa, để cho phép máy tính khai thác và khai thác tốt hơn các thông tin trên web.
- Trên semantic web , tài nguyên được đưa ra với sự xác định rõ ràng về ngữ nghĩa và thuận tiện để máy tính và con người có thể cộng tác làm việc.
- Web ngữ nghĩa là một mạng lưới các thông tin được liên kết sao cho chúng có thể xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu.
- Nó được xem là cách mô tả thông tin rất hiệu quả trên Word Wide Web, và cũng được xem là một cở sở dữ liệu có khả năng liên kết toàn cầu.
- Hình 1.1: Web ngữ nghĩa như một sự mở rộng của WWW Tóm lại: Semantic Web đơn thuần chỉ là một sự mở rộng của Web hiện hành mà không phải là một sự đột phá thay thế công nghệ Web cũ.
- Ngược lại Semantic 11 Web kế thừa từ Web hiện hành và cho phép khai thác Web hiện tại trong một con đường mới, con đường mà máy và người có thể làm việc cộng tác trong khai thác tài nguyên Web một cách hiệu quả hơn.
- Những ích lợi mà web ngữ nghĩa mang lại 1.2.1.
- Máy có thể hiểu được thông tin trên web Internet ngày nay dựa hoàn toàn vào nội dung.
- Semantic sẽ cung cấp cho máy có thể hiểu được, ví dụ như.
- Những câu như vậy chúng có thể hiểu bởi con người nhưng làm sao chúng có thể được hiểu bởi máy tính.
- Thông tin được tìm kiếm nhanh chóng và chính xác hơn Với web ngữ nghĩa, việc tìm kiếm sẽ trở lên dễ dàng hơn nếu mọi thứ được đặt trong ngữ cảnh.
- Mục tiêu của web ngữ nghĩa là phát triển các tiêu chuẩn và kỹ thuật để giúp máy hiểu nhiều thông tin trên web hơn, để chúng tìm ra các thông tin dồi dào hơn, tích hợp, duyệt dữ liệu, và tự động hóa các thao tác.
- Với web ngữ nghĩa chúng ta không những nhận được những thông tin chính xác hơn khi tìm kiếm thông tin từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khác nhau, biết so sánh các thông tin với nhau.
- Dữ liệu liên kết động Với web ngữ nghĩa chúng ta có thể kết hợp các thông tin đã được mô tả và giàu ngữ nghĩa với bất kỳ nguồn dữ liệu nào.
- Ví dụ, bằng cách thêm các metadata (dữ liệu về dữ liệu) cho các tài liệu khi tạo ra nó, chúng ta có thể tìm kiếm các tài liệu mà metadata cho biết tác giả là Eric 12 Miller.
- Cũng thế, với metadata chúng ta có thể tìm kiếm chỉ những tài liệu thuộc loại tài liệu nghiên cứu.
- Với web ngữ nghĩa, chúng ta không chỉ cung cấp các URI cho các tài liệu như đã làm trong quá khứ mà còn cho con người, các khái niệm, các mối liên hệ.
- Như trong ví dụ trên, bằng cách cung cấp những định danh duy nhất cho mỗi con người như vai trò của “tác giả” và khái niệm “tài liệu nghiên cứu”, chúng ta đã làm rõ người ở đây là ai và mối quan hệ của người này với một tài liệu nào đó.
- Ngoài ra, bằng cách làm rõ người mà chúng ta đang đề cập chúng ta có thể phân biệt được những tài liệu của Eric Miller với những tài liệu của những người khác.
- Chúng ta cũng có thể kết hợp những thông tin đã được mô tả ở nhiều site khác nhau để biết thêm thông tin về người này ở những ngữ cảnh khác nhau ví dụ như vai trò của anh ta ra sao khi anh ta là tác giả, nhà quản lý, nhà phát triển,… 1.2.4.
- Hỗ trợ công cụ tự động hóa Ngoài những lợi ích trên, web ngữ nghĩa còn cung cấp các loại dịch vụ tự động từ nhiều vùng khác nhau : từ gia đình và từ các thư viện kỹ thuật số cho đến các dịch vụ kinh doanh điện tử và dịch vụ sức khỏe… Web ngữ nghĩa cung cấp phương tiện để cung cấp thêm các thông tin chi tiết lên web nhằm hỗ trợ sự tự động hóa cho các dịch vụ.
- Kiến trúc công nghệ Web ngữ nghĩa Hình 1.2: Kiến trúc phân tầng của Web ngữ nghĩa năm 2001 Trong đó.
- Unicode và URI: cơ sở để xây dựng các tài liệu 13 - XML+NS+XMLschema: Công nghệ xây dựng tài liệu bán cấu trúc - RDF và RDFs: mô tả siêu dữ liệu trên Web ngữ nghĩa - Ontology vocabulary: Mô tả các quan hệ cũng như các khái niệm trong miền ứng dụng.
- Logic: Cơ sở để chuẩn hóa các khái niệm cho Web ngữ nghĩa - Proof và Trust: Là các ứng dụng cao cấp mà Web ngữ nghĩa muốn đạt đến cho Web hiện tại.
- Hình 1.3: Kiến trúc phân tầng của Web ngữ nghĩa hoàn thiện năm 2006 Trong đó.
- Unicode và URI: cơ sở để xây dựng các tài liệu - XML: công nghệ xây dựng tài liệu bán cấu trúc.
- RDF: Chuẩn trao đổi siêu dữ liệu Web ngữ nghĩa - Ontology (RDFs, OWL) và ngôn ngữ các luật: Mô tả các quan hệ cũng như các khái niệm trong miền ứng dụng và suy diễn của chúng.
- Đồng nhất về logic: cơ sở để chuẩn hóa các khái niệm cho Web ngữ nghĩa - Proof và Trust: Là các ứng dụng cao cấp mà Web ngữ nghĩa muốn đạt đến ho web hiện tại.
- 14 Giải thích chi tiết: Từ sơ đồ kiến trúc của Web ngữ nghĩa, ta thấy có bảy tầng kiến trúc.
- Bất kỳ một người nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một hệ thống Web toàn cầu.
- (URI (Uniform Resource Identifier) có thể hiểu là một chuỗi định danh tài nguyên trên mạng.
- Nói theo cách khác, URI là sự mở rộng của URL.) RDF (Resource Description Framework): Khung mô tả tài nguyên - RDF được W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa.
- Còn đối tượng ở đây có thể là một tài nguyên hoặc một giá trị.
- [13] RDFS (RDF schema): RDFS là một ngôn ngữ ontology đơn giản của web ngữ nghĩa, được coi là một ngôn ngữ cơ sở của web ngữ nghĩa.
- Ontology Vocabulary: Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận.
- Tầng hợp Logic: Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng ontology có mục đích là để máy có thể lập luận được.
- Chính vì vậy mà các ontology được ánh xạ sang logic, cụ thể là logic mô tả để có thể hỗ trợ lập luận.
- Vì logic mô tả có biểu diễn ngữ nghĩa hình thức (đặc trưng của lý thuyết mô hình), và cung cấp các dịch vụ lập luận, là cơ sở để hỗ trợ máy có thể lập luận và hiểu tài nguyên.
- Cụ thể từ các thông tin đã có ta có thể suy ra các thông tin mới.
- Ví dụ: A là cha của B, A là em trai C thì khi đó ta có thông tin mới là C là bác của B.
- Tầng Trust: Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa.
- Ví dụ: có một người bảo x là xanh, một người khác lại nói x không xanh, như thế Web ngữ nghĩa là không đáng tin cậy.
- Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau khi đó ngữ nghĩa tương ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó.
- XML là một đặc tả cho các tài liệu (document) mà máy tính đọc được.
- Đánh dấu (markup) có nghĩa là các chuỗi ký tự nào đó trong tài liệu có chứa thông tin chỉ ra vai trò nội dụng của tài liệu.
- Markup làm thông tin tự mô tả tùy vào cảm nhận.
- Một tài liệu XML bao gồm một tập các cặp thẻ lồng vào nhau.
- Cấu trúc một tài liệu XML Một tài liệu XML có thể được chia thành hai phần chính, mỗi phần có thể có các thành phần theo quy định khác nhau: Phần khai báo: Chứa các khai báo cho tài liệu XML.
- Phần này có thể chứa các định dạng như: Các chỉ thị xử lý, định nghĩa kiểu cho tài liệu, chú thích, phiên bản đang sử dụng, cách thức mã hóa dữ liệu, báo cáo các chỉ thị xử lý cho ứng dụng.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt