« Home « Kết quả tìm kiếm

Nghiên cứu về Web thế hệ mới, tìm hiểu các vấn đề liên quan Web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web


Tóm tắt Xem thử

- LƯƠNG XUÂN DIỆU NGHIÊN CỨU VỀ WEB THẾ HỆ MỚI, TÌM HIỂU CÁC VẤN ĐỀ LIÊN QUAN WEB THẾ HỆ MỚI VÀ THỬ NGHIỆM MỘT SỐ ỨNG DỤNG TỰ ĐỘNG THU THẬP THÔNG TIN TRÊN WEB CHUYÊN NGÀNH: KĨ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS.
- PHẠM HUY HOÀNG HÀ NỘI – NĂM 2014 Semantic Web Lương Xuân Diệu 1 Lời cảm ơn Em xin gởi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của trường Đại học Đại học Bách khoa Hà nội, đặc biệt là các thầy cô Viện Công nghệ thông tin và Truyền thông của trường đã tạo điều kiện cho em thực tập ở viện để có nhiều thời gian cho luận văn tốt nghiệp.
- Em xin chân thành cảm ơn! Học viên Lương Xuân Diệu Semantic Web Lương Xuân Diệu 2 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi.
- Tác giả Lương Xuân Diệu Semantic Web Lương Xuân Diệu 3 Mục lục 1.
- Lịch sử nghiên cứu.
- Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu.
- Phương pháp nghiên cứu.
- 8 Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web.
- Các thế hệ web và sự ra đời của web ngữ nghĩa.
- Web dữ liệu (Web of Data.
- Những giới hạn của web 2.0, sự ra đời của web 3.0.
- Lịch sử phát triển của web ngữ nghĩa.
- Định nghĩa về web ngữ nghĩa.
- Các thành phần cơ bản của web ngữ nghĩa.
- Các phiên bản của web ngữ nghĩa.
- Các ứng dụng nổi bật trên nền tảng web ngữ nghĩa.
- Adaptive web và Semantic web.
- 20 Chương II: Các thành phần cơ bản của web ngữ nghĩa (Các tầng của Semantic Web) 22 1.
- Ứng dụng của URI trong Web ngữ nghĩa.
- 23 Semantic Web Lương Xuân Diệu 4 2.
- 50 Semantic Web Lương Xuân Diệu 5 Chương III: Ứng dụng tìm kiếm dữ liệu trên mô hình web ngữ nghĩa.
- Các nội dung cơ bản để chuyển từ web 2.0 thành web ngữ nghĩa.
- Thiết kế cơ sở dữ liệu.
- Truy vấn dữ liệu.
- Xuất bản và truy vấn dữ liệu giữa các website.
- Ứng dụng tìm kiếm trên web ngữ nghĩa.
- Kiến nghị về việc sử dụng kết quả nghiên cứu.
- 64 Semantic Web Lương Xuân Diệu 6 MỞ ĐẦU 1.
- Lý do chọn đề tài Với sự phát triển mạnh mẽ cả về số lượng và chất lượng của Internet dẫn tới việc gia tăng không ngừng của các nội dung, thông tin trên Internet.
- Tuy nhiên với công nghệ xây dựng Website hiện nay, việc tìm kiếm chính xác nội dung, thông tin trên Internet ngày càng trở nên khó khăn, tỉ lệ nghịch với sự phát triển mạnh mẽ của hệ thống Web trên thế giới.
- Sự phát triển một hệ thống web mới mà nội dung trên được xây dựng cùng với mô tả về ngữ nghĩa, liên kết giữa các dữ liệu với nhau sẽ trở thành nền tảng cho các công nghệ, ứng dụng khác phát triển mạnh mẽ, đáp ứng được nhu cầu ngày một cao của người sử dụng.
- Đã có nhiều nghiên cứu trong và ngoài nước về việc xây dựng hệ thống website mới, sao cho các hệ thống máy tính có thể hiểu được nội dung của dữ liệu được lưu trữ trên đó.
- Xuất phát từ nhu cầu cần có một nghiên cứu chi tiết, cụ thể về những lý luận cơ bản của web ngữ nghĩa, cũng như cách thức xây dựng bộ máy tìm kiếm dữ liệu trên nền tảng web ngữ nghĩa, tôi đã tiến hành thực hiện đề tài: “Nghiên cứu về Web thế hệ mới, tìm hiểu các vấn đề liên quan Web thế hệ mới và thử nghiệm một số ứng dụng tự động thu thập thông tin trên web” 2.
- Với sự ra ra đời của web ngữ nghĩa từ đầu những năm 60, các bộ máy tìm kiếm đi cùng với mô hình web ngữ nghĩa luôn được ưu tiên nghiên cứu và phát triển.
- Semantic Web Lương Xuân Diệu 7 Hiện nay đã có nhiều dự án nghiên cứu và ứng dụng các hệ thống tìm kiếm semantic khác nhau được xây dựng.
- Tuy nhiên việc ứng dụng web semantic và tìm kiếm trên web semantic chưa thực sự mạnh mẽ trên thế giới.
- Cần có sự chuẩn bị và thời gian để chuyển dần việc sử dụng công nghệ web 2.0 sang việc sử dụng công nghê mới để xây dựng web.
- Mục đích nghiên cứu, đối tượng nghiên cứu, phạm vi nghiên cứu Mục đích của đề tài: nghiên cứu về cơ sở lý luận và thực tiễn của web semantic, các thành phần, công nghệ cơ bản được sử dụng trong web semantic.
- Đưa ra được ưu điểm, và sự khác biệt trong việc sử dụng các công nghệ khác nhau trong việc xây dựng web semantic.
- Semantic Web Lương Xuân Diệu 8 Xây dựng được môt hình tìm kiếm semantic đơn giản nhất mô phỏng kết quả nghiên cứu và tính khả thi của mô hình web ngữ nghĩa.
- Đối tượng nghiên cứu của đề tài: Web ngữ nghĩa, các công nghệ nền tảng xây dựng web ngữ nghĩa, các hệ thống tìm kiếm trên nền tảng web ngữ nghĩa.
- Tóm tắt các luận điểm cơ bản World Wide Web đã thay đổi cách thức giao tiếp của con người trong nhiều lĩnh vực và Web ngữ nghĩa ra đời là xu thế phát triển trong việc biểu diễn dữ liệu để khắc phục các hạn chế của Web hiện tại và hướng tới một thế hệ Web mới, đáp ứng tốt hơn nhu cầu của con người và các ứng dung.
- Các ứng dụng được thiết kế dựa trên các khái niệm và sử dụng các thông tin có thể xử lý được bởi máy tính để tạo ra động lức lớn cho việc phát triển của một thế hệ các công cụ và các ứng dụng mới.
- RDF/RDFS và OWL là các ngôn ngữ được xây dựng và sử dụng trong việc định nghĩa và mô tả dữ liệu trên nền tảng web ngữ nghĩa.
- Cùng với việc sử dụng SPARQL như một ngôn ngữ truy vấn dữ liệu chính cho web ngữ nghĩa.
- Từ đó đã xây dựng nên được các thành phần cơ bản của một web ngữ nghĩa, có thể ứng dụng vào thực tế.
- Hiện nay việc ứng dụng web ngữ nghĩa để xây dựng các ứng dụng ngày càng nhiều như: các thư viện số, các hệ thống quản lý thông tin, các hệ thống tra cứu, tư vấn và hỗ trợ… 5.
- Phương pháp nghiên cứu Nghiên cứu lý thuyết: Nghiên cứu các công trình khoa học đã được công bố về web ngữ nghĩa, các bài báo, các bài giảng.
- Nghiên cứu thực nghiệm: Thực nghiệm mố số công cụ hỗ trợ xây dựng web ngữ nghĩa và hệ thống tìm kiếm trên web ngữ nghĩa.
- Semantic Web Lương Xuân Diệu 9 Nội dung Chương I: Tổng quan về Web ngữ nghĩa (Senmantic Web) 1.
- Các thế hệ web và sự ra đời của web ngữ nghĩa 1.1.
- Lịch sử phát triển của website Web site là một một tập hợp các trang web hay cũng có thể chỉ là một site đơn giản, được đặt trên một hoặc nhiều web server.
- Loại web này chỉ đơn giản thể hiện thông tin đã được xây dựng sẵn, và không có sự tương tác với người dùng.
- Nó có thể chứa được hình ảnh, âm thanh, video, nhưng tất cả đều đã được xác định sẵn, không thể thay đổi theo yêu cầu của người dùng.
- Thế hệ Website thứ 2 (web động – dynamic web) được phát triển từ nền tảng static web (HTML, CSS) cùng với việc sử dụng các công nghệ theo mô hình Client - Server như CGI, Java Servlet, JSP, ASP…đã tạo nên một hệ thống web động.
- Có khả năng tương tác, thay đổi nội dung, dữ liệu theo yêu cầu của người sử dụng.
- Với sự ra đời ngày càng nhiều về số lượng và ngày càng tăng về chất lượng, nội dung, đã khiến cho hệ thống web trên toàn thế giới trở thành một kho thông tin khổng lồ, chứa đựng thông tin về mọi mặt của cuộc sống.
- Tuy nhiên từ đó nảy sinh một yêu cầu tất yếu, đó là việc tìm kiếm thông tin trong kho tri thức khổng lồ đó.
- Với bản chất của web là một tập hợp các nội dung cùng với ngôn ngữ đánh dấu (HTML) và ngôn ngữ định dạng (CSS) việc tìm kiếm thông tin chỉ đơn giản là tìm kiếm theo từ vựng.
- Vì vậy một yêu cầu tất yếu cần phải có một hệ Semantic Web Lương Xuân Diệu 10 thống web mà trên đó thông tin có thể được “hiểu” được mang ý nghĩa, khi đó việc tìm kiếm thông tin sẽ quy về việc tìm kiếm theo nghĩa của nội dung thay vì tìm kiếm bằng từ vựng.
- Web dữ liệu (Web of Data) Ta có thể hiểu web động chỉ là là một tập hợp thông tin được biểu diễn, thể hiện và liên kết với nhau mà không hề có ý nghĩa, vì vậy để có thể thay thế việc tìm kiếm bằng từ vựng, ta cần thêm vào thông tin đó một phần “nghĩa” của thông tin.
- Phần nghĩa này sẽ giúp cho các hệ thống máy tính có thể “hiểu” được nội dung của thông tin, làm cho việc tìm kiếm thông tin sát với yêu cầu người người dùng.
- Việc xây dựng một hệ thống web site chứa đựng thông tin đi cùng với phần mô tả nội dung, ý nghĩa của nó đã tạo nên một hệ thống web mới, chứa đựng thông tin có thể được tìm kiếm, truy xuất theo nghĩa của thông tin, theo từ chủ đề, chuyên mục riêng.
- Tuy nhiên, với bản chất của hệ thống web động (2.0) hiện tại, thì việc đưa thêm một phần thông tin để mô tả ý nghĩa của thông tin thì gần như không thể thực hiện được.
- Những giới hạn của web 2.0, sự ra đời của web 3.0 Từ sự phát triển của website, từ web tĩnh tới web động.
- việc biểu diễn thông tin trên web đều thông qua việc sử dụng ngôn ngữ đánh dấu (HTML), kết hợp cùng với việc sử dụng liên kết giữa các nội dung, tạo nên một hệ thống website.
- Tuy nhiên hệ thống website được tăng lên hàng giờ thì việc liên kết giữa các nội dung, các thông tin đó trở nên rối rắm, phức tạp, không có khả năng khai thác.
- Các bộ máy tìm kiếm (search engine) hiện nay đều được xây dựng trên cơ sở sử dụng từ vựng để tìm kiếm thông tin.
- Việc tìm kiếm này sẽ trở nên khó khăn, thiếu tính chính xác với Semantic Web Lương Xuân Diệu 11 hệ thống thông tin vô cùng lớn, có nhiều nội dung đồng âm nhưng khác nghĩa, thông tin không được phân chia thành các hệ thống, các chuyên mục riêng biệt.
- Ví dụ ta tìm kiếm thông tin về một loài động vật (Jaguar) trên Google, sẽ nhận được các thông tin khác nhau có cùng âm là jaguar như vậy.
- Xuất phát từ ý tưởng đó, việc xây dựng một hệ thống website mới (web 3.0) đã ra đời.
- Việc đưa thêm ý nghĩa, ngữ nghĩa cho thông tin lên web, sẽ giúp cho bộ máy tìm kiếm hiểu được ý nghĩa của từ thông tin, giúp cho việc liên kết giữa các thông tin được chính xác, đầy đủ.
- việc tìm kiếm của bộ máy tìm kiếm sẽ chính xác hơn.
- Khi đó Semantic Web Lương Xuân Diệu 12 việc tìm kiếm sẽ không dựa chỉ dựa vào từ vựng, mà thêm vào đó sẽ được tìm kiếm theo ý nghĩa của thông tin.
- Lịch sử phát triển của web ngữ nghĩa Định nghĩa về Semantic Network Model đã được xây dựng vào đầu những năm 1960 bởi Allan M Collins, M.
- Đây là sự mở rộng của hệ thống các liên kết trên website bằng cách thêm vào đó các thông tin Metadata chưa đựng thông tin về nội dung chính của website cũng như cách nó liên kết tới các website khác.
- Khi đó bộ máy tìm kiếm sẽ tự động thu thập thông tin trong Metadata này để tăng độ chính xác và hiệu quả trong việc tìm kiếm.
- Thuật ngữ Web ngữ nghĩa (Senmantic Web) được đề xuất bởi Tim Berners Lee (người sáng lập của tổ chức World Wide Web) vào năm 1998, theo Tim thì web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng Semantic Web Lương Xuân Diệu 13 sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn.
- Mục tiêu của web ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên web, sao cho chúng có thể hỗ trợ tốt hơn cho việc tìm kiếm thông tin, tích hợp dữ liệu và tự động hóa.
- Định nghĩa về web ngữ nghĩa 2.1.
- Định nghĩa Web ngữ nghĩa là một phương pháp cho phép định nghĩa là liên kết dữ liệu một cách có nghĩa nhằm mục đích phục vụ cho máy tính có thể hiểu được nội dung của thông tin, dữ liệu.
- Web ngữ nghĩa còn cung cấp một môi trường chia sử và xử lý dữ liệu tự động bằng hệ thống máy tính.
- Tim Berners – Lee đã đư ra hai vấn đề chính của web ngữ nghĩa, đó là tạo cho web một môi trường trong đó có sự tương tác giữa các web với nhau, thứ hai là máy tính có thể hiểu được các thông tin, dữ liệu trên website.
- Khi đó, thay vì việc phải được ra phương pháp xử lý dữ liệu mới, ta sẽ đưa ra một phương pháp xây dựng dữ liệu mới, có cấu trúc, có ngữ nghĩa.
- Semantic Web Lương Xuân Diệu 14 2.2.
- Các thành phần cơ bản của web ngữ nghĩa Web ngữ nghĩa được xây dựng trên nền tảng hệ thống web hiện tại.
- nó được coi là sự mở rộng, bổ xung thêm ngữ nghĩa vào các dữ liệu đã có trên web.
- Các thành phần cơ bản, kiến trúc của web ngữ nghĩa gồm có các thành phần cơ bản.
- Sử dụng bảng mã chuẩn unicode: đây là bảng mã chuẩn chung có đầy đủ các ký tự để thống nhất giao tiếp giữa tất cả các quốc gia, đáp ứng tính toàn cầu hóa của web.
- Sử dụng XML để đánh dấu, lưu trữ dữ liệu, tuy nhiên hiện nay XML không còn được coi là một thành phần cơ bản của web ngữ nghĩa.
- Semantic Web Lương Xuân Diệu 15 - XML Schema là ngôn ngữ hỗ trợ cho việc giải quyết các hạn chế về mặt cấu trúc và nội dung được chưa trong file XML.
- RDF có thể được sử dụng dưới nhiều kiểu cú pháp khác nhau như: RDF/XMl, N3, Turtle và RDFa.
- RDF được coi là nền tảng của web ngữ nghĩa.
- OWL: mở rộng thêm tập từ khóa để mô tả dữ liệu và các lớp, mối liên hệ giữa các lớp.
- SPARQL: Giao thức và ngôn ngữ truy vấn cho dữ liệu của web ngữ nghĩa.
- RIF: chuẩn giao thức của W3C, sử dụng ngôn ngữ XML để mô tả các luật của web để máy tính cả thể hiểu được.
- Unifying logic: Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng Ontology có mục đích là để máy có thể lập luận được.
- Mà cơ sở lập luận chủ yếu dựa vào logic, chính vì vậy việc sử dụng logic trong web ngữ nghĩa là để hỗ trợ cho việc mô tả dữ liệu một cách có logic.
- Proof: Cung cấp các luật để phát biểu các suy luận logic, từ các thông tin đã có, ta có thể suy ra các thông tin mới.
- Mỗi ứng dụng trên web ngữ nghĩa sẽ có một ngữ cảnh cụ thể, chính vì thế, các mệnh đề trên có thể nằm trong các ngữ cảnh khác nhau, khi đó ngữ nghĩa tương ứng khác nhau nên các mệnh đề đó vẫn đúng, đáng tin cậy trong ngữ cảnh của nó

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt