« Home « Kết quả tìm kiếm

Ứng dụng web ngữ nghĩa trong tìm kiếm thông tin về luật


Tóm tắt Xem thử

- Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- Đoàn Huỳnh Cẩm Duyên Trang phụ bìa ỨNG DỤNG WEB NGỮ NGHĨA TRONG TÌM KIẾM THÔNG TIN VỀ LUẬT Chuyên ngành : Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Cao Tuấn Dũng Hà Nội – Năm 2012 Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 2 LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn thạc sĩ Công nghệ thông tin “Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật” này là công trình nghiên cứu thực sự của cá nhân, được thực hiện trên cơ sở nghiên cứu lý thuyết và dưới sự hướng dẫn khoa học của Tiến sĩ: Cao Tuấn Dũng.
- Hà Nội, ngày 24 tháng 03 năm 2012 Tác giả Đoàn Huỳnh Cẩm Duyên LỜI CẢM ƠN Để hoàn thành chương trình cao học và viết luận văn này, tôi xin chân thành cảm ơn đến quí thầy cô trong Viện Công nghệ thông tin và Truyền Thông, trường Đại học Bách Khoa Hà Nội đã tận tình dạy bảo tôi trong thời gian học.
- Nhân đây, tôi cũng xin cảm ơn Ban giám hiệu trường Đại học Nha Trang và các thầy cô trong khoa Công nghệ thông tin đã tạo điều kiện cho lớp cao học Công nghệ thông tin 2009 tại Nha Trang chúng tôi được học tập thuận lợi.
- Hà Nội, ngày 24 tháng 03 năm 2012 Tác giả Đoàn Huỳnh Cẩm Duyên Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 3 DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT STT Thuật ngữ Diễn giải 1 HTML HyperText Markup Language 2 RDF Resource Description Framework 3 XML Extensible Markup Language 4 URI Uniform Resource Identifier 5 Semantic Web Web ngữ nghĩa 6 RDFS RDF schema 7 Individuals Thể hiện 8 Classes Các lớp khái niệm 9 Properties Thuộc tính 10 Reification Tuyên bố gián tiếp 11 Annotation Chú thích Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 4 DANH MỤC CÁC BẢNG STT Nội dung bảng Trang 1.1 Cú pháp cơ bản của RDF 37 3.1 Bảng tóm tắt các từ vựng các lớp RDF 49 3.2 Bảng tóm tắt các từ vựng thuộc tính RDF 50 DANH MỤC CÁC HÌNH VẼ STT Danh mục các hình Trang 1.1 Một đề xuất nguồn gốc Web với CERN 10 1.2 Sơ đồ phát triển tính thông minh của dữ liệu 11 1.3 Kiến trúc của web ngữ nghĩa 13 1.4 Bộ ba RDF 15 1.5 Đồ thị RDF gồm hai mệnh đề 16 2.1 Mối quan hệ giữa các thành phần trong một bộ ba.
- 26 2.4 Các thông tin bổ sung cho John Smith 30 2.5 Minh họa kiểu Plain Literal 34 2.6 Kiểu Typed Literal biểu diễn cho tuổi của John Smith 35 2.7 Minh họa kiểu Typed Literal 36 Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 5 2.8 Ví dụ của một phát biểu về một phát biểu 39 2.9 Các lớp và các thuộc tính 42 2.10 Lớp phân cấp cho RDFS.
- 48 4.1 Xác định các thuật ngữ 69 4.2 Ví dụ về xác định class 70 4.3 Ontology theo cách thứ nhất: đưa thông tin vào annotation.71 4.4 Thành phần luật lao động 74 4.5 Mô tả phân tích điều luật.
- 75 4.6 Ontology luật lao động được biểu diễn trong Protégé 76 4.7 Màn hình chính 81 4.8 Màn hình tìm kiếm bằng annotation 82 4.9 Màn hình trả về kết qủa tìm kiếm bằng Annotation 82 4.10 Màn hình cho phép tìm kiếm theo chủ đề.
- 83 4.11 Kết quả tìm kiếm theo chủ đề “Người học nghề” 84 4.12 Màn hình sử dụng câu hỏi để tìm kiếm thông tin 84 4.13 Màn hình hiển thị kết quả sau khi người dùng đặt câu hỏi 85 4.14 Màn hình truy vấn bằng SPARQL 86 Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 6 PHẦN MỞ ĐẦU 1.
- Lý do chọn đề tài Hiện tại, với một nước có đến hơn 65% dân số trong độ tuổi lao động và lao động với trình độ hạn chế như ở Việt Nam, thì việc tăng cường hỗ trợ cho người lao động về luật pháp là việc vô cùng cần thiết.
- Bộ luật lao động Việt Nam được ban hành nhằm bảo vệ quyền làm việc và lợi ích hợp pháp của người lao động.
- Tuy nhiên, thực tế là đa phần người lao động Việt Nam, đặc biệt là lao động phổ thông chưa tiếp cận được với Luật.
- Khi có sự việc không mong muốn xảy ra, người lao động thường không biết phải làm thế nào vì không có hiểu biết rõ về quyền lợi và nghĩa vụ của mình.
- Xuất phát từ thực tế đó, em nhận thấy việc nghiên cứu để xây dựng một công cụ tìm kiếm những nội dung trong bộ luật lao động là việc cần thiết để giúp những người quan tâm nói chung và người lao động nói riêng có hiểu biết tốt hơn về luật lao động.
- Tuy nhiên, với cách xây dựng các công cụ tìm kiếm theo từ khóa hiện nay, việc tiếp cận với bộ luật với nhiều chương điều và khá phức tạp này thật sự khó khăn với người sử dụng.
- Vì vậy, cần có một phương pháp tiếp cận tốt hơn để có thể giúp người quan tâm đến luật dễ dàng hơn trong tìm kiếm thông tin.
- Trên thế giới, đã có nhiền nghiên cứu và bài báo về bài toán ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật, nhưng tại Việt Nam, việc ứng dụng Web ngữ nghĩa trong lĩnh vực luật pháp là rất ít.
- Vì thế, dưới sự hướng dẫn của cán bộ hướng dẫn khoa học Tiến sĩ Cao Tuấn Dũng, em chọn tìm hiểu về Web ngữ nghĩa, một trong những công nghệ mới và đang phát triển hiện nay để làm cơ sở thực hiện công cụ hỗ trợ tìm kiếm thông tin về Luật pháp nói chung và Bộ luật lao động nói riêng.
- Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 7 2.
- Nghiên cứu tổng quan chung về Web ngữ nghĩa.
- Nghiên cứu ontology.
- Các ngôn ngữ biểu diễn ontology như RDF/RDFS, OWL.
- Tìm hiểu công cụ soạn thảo ontology: Protégé • Nghiên cứu công nghệ, kỹ thuật - Nghiên cứu ngôn ngữ truy vấn SPARQL - Nghiên cứu cách thức tạo, sử dụng các luật suy diễn cho OWL - Nghiên cứu bộ thư viện hỗ trợ quản lý ontology với ngôn ngữ java: Jena - Tạo được ontology luật lao động và sử dụng được ontology này để cài đặt ứng dụng tìm kiếm thông tin về Luật.
- Cấu trúc luận văn Phần nội dung chính của luận văn được chia thành 4 chương, trong đó: Chương 1 - Tổng quan: Giới thiệu Tổng quan về Semantic Web Chương 2 - Ontology và Semantic Web: Giới thiệu về ontology và quy trình thiết kế một ontology để chứa dữ liệu ngữ nghĩa.
- Chương 3 – SPARQL – Ngôn ngữ truy vấn cho RDF: Chương này giới thiệu về ngôn ngữ SPARQL, cách sử dụng và cú pháp của SPARQL để truy vấn dữ liệu từ ontology.
- Chương 4 – Áp dụng Semantic web trong tìm kiếm thông tin luật lao động: Giới thiệu cách thức em nghiên cứu và xây dựng ontology Luật lao động, từ đó xây dựng phần mềm tìm kiếm thông tin Luật lao động.
- Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 8 PHẦN NỘI DUNG Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 9 Chương I – TỔNG QUAN 1.1 Nguồn gốc và mục tiêu của web ngữ nghĩa World Wide Web (gọi tắt là Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay.
- Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng.
- Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được.
- Các chuyên gia dự đoán, bề nổi của web (surface web) chứa khoảng 1 đến 2 tỷ trang tài liệu trong khi, ở phần sâu của web thì chứa đến 550 tỷ trang tài liệu.
- Có khoảng 200.000 website có tầng thông tin sâu, khoảng hơn 1/2 số thông tin này nằm trong các cơ sở dữ liệu có chủ đề riêng biệt.
- Khoảng 95% thông tin trong các website có tầng thông tin sâu cho phép đa số người dùng có thể khai thác miễn phí.
- Nhưng hiện nay, hầu hết các công cụ tìm kiếm tài liệu trên web được coi là tìm kiếm hiệu quả cũng chủ yếu tìm kiếm được trên bề nổi của web.
- Trong khi ở tầng sâu của web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay đơn thuần là những người thích tìm hiểu.
- Bên cạnh đó, các trang web hiện nay có rất ít đường liên kết với các trang web khác nên việc tìm kiếm trở nên khó khăn.
- Ngoài ra, thông tin tìm kiếm được không theo chủ đề mà chỉ là vấn đề tìm thoả theo từ khoá đơn thuần, kết quả tìm kiếm phải do con người chọn lại theo chủ đề mong muốn.
- Chính những vấn đề này đã thúc đẩy sự ra đời của ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web, mà chính cha đẻ của World Wide Web là Tim Berners-Lee đề xuất vào năm 1998.
- Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn.
- Mục tiêu của Web có ngữ nghĩa là để Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 10 phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu, và tự động hóa các công việc.
- 1.2 Khái niệm về Semantic Web Tim Berners-Lee đã đưa ra hai vấn đề của web ngữ nghĩa, đó là tạo cho Web một môi trường cộng tác tốt hơn và vấn đề thứ hai là máy có thể hiểu và xử lý tự động các thông tin trên Web.
- Nhưng trong hình này, có các mối quan hệ giữa các thông tin như: "includes", "describes", "rote", đây là các mối quan hệ giữa các tài nguyên mà trong web hiện tại không có.
- Và chính các quan hệ này đưa vào web ngữ nghĩa là cần thiết, để máy có thể hiểu và xử lý thông tin tự động trên web.
- Các quan hệ này được gọi là các siêu dữ liệu.
- Công nghệ để có được các siêu dữ liệu này là công nghệ RDF (Resource Description Framework) Hình 1.1- Một đề xuất nguồn gốc Web với CERN Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 11 (CERN-Hội đồng Châu Âu nghiên cứu hạt nhân) Để có thể tạo ra web có dữ liệu mà máy có thể xử lý được, trước hết phải thay đối mô hình trong cách chúng ta nghĩ về dữ liệu.
- Từ trước đến nay, dữ liệu bị khoá ngay trong các ứng dụng độc quyền.
- Dữ liệu được coi như thứ yếu để xử lý dữ liệu.
- Thái độ không đúng này bộc lộ những sai sót cơ bản trong luận cứ gốc bằng việc thiết lập sự phụ thuộc giữa xử lý và dữ liệu.
- Hay nói cách khác, phần mềm tốt thì hoàn toàn phụ thuộc vào dữ liệu tốt.
- Với các hệ tính toán chuyên nghiệp thì ngay khi bắt đầu thực hiện, vấn đề dữ liệu là rất quan trọng, nó phải được xác minh và bảo vệ.
- Với Web, XML và xu thế Web ngữ nghĩa đang nổi lên thì có sự thay đổi của sức mạnh đang di chuyển từ các ứng dụng sang dữ liệu.
- Vấn đề này cũng cho chúng ta mấu chốt để hiểu Web ngữ nghĩa.
- Con đường để máy có thể xử lý dữ liệu chủ yếu là tạo ra dữ liệu thông minh hơn chứ không phải là các xử lý thông minh.
- Hình 1.2 biểu diễn sự phát triển tính thông minh của dữ liệu theo thời gian.
- Sơ đồ phát triển tính thông minh của dữ liệu Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 12 Hình 1.2 chỉ ra sự phát triển liên tục của tính thông minh dữ liệu có bốn bậc quan trọng.
- Bốn bậc này biểu diễn từ dữ liệu có tính thông minh thấp nhất đến dữ liệu đã có thông tin đủ ngữ nghĩa để máy thực hiện suy luận về nó.
- Văn bản và cơ sở dữ liệu (bậc này là tiền XML) Bậc đầu tiên, hầu hết dữ liệu ở bậc này được sở hữu độc quyền cho một ứng dụng.
- Do vậy tính thông minh là nằm trong ứng dụng đó chứ không phải là trong dữ liệu.
- Tài liệu XML với miền đơn Ở bậc này, dữ liệu đạt được là: ứng dụng độc lập với miền riêng.
- Bây giờ, dữ liệu đủ thông minh để có thể di chuyển giữa các ứng dụng trong một miền đơn.
- Các phân loại và tài liệu với các bộ từ vựng hỗn hợp Trong bậc này, dữ liệu có thể được soạn từ đa miền và được phân lớp chính xác theo một nguyên tắc phân loại có thứ bậc.
- Thực tế, sự phân lớp đó có thể được sử dụng để khám phá dữ liệu.
- Các quan hệ đơn giản giữ các lớp có thể được sử dụng để quan hệ và do vậy, ta có dữ liệu kết hợp.
- Như vậy, dữ liệu bây giờ thông minh đủ để khám phá dễ dàng và được kết hợp một cách hợp lý với dữ liệu khác.
- Các ontology và các luật lập luận Trong mức này, dữ liệu mới có thể được suy ra từ những dữ liệu đã có theo các luật logic.
- Thực chất, dữ liệu bây giờ thông minh đủ để được mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp.
- Điều này cho phép kết hợp hoặc tái kết hợp dữ liệu nguyên thuỷ nhiều hơn và sự phân tích về dữ liệu mịn hơn.
- Một ví dụ về sự phức tạp của dữ liệu là việc chuyển tự động tài liệu trong một miền này sang một tài liệu tương đương trong một miền khác.
- Ở mức này, ta có thể soạn một định nghĩa mới trên Web Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 13 ngữ nghĩa, máy có thể xử lý các tài liệu web có dữ liệu thông minh.
- Hơn nữa, ta có thể định nghĩa dữ liệu thông minh vì dữ liệu nó độc lập với ứng dụng, có thể soạn, phân lớp và lấy một phần của các hệ thông tin lớn hơn.
- Như vậy, việc xây dựng web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống web có dữ liệu thông minh.
- Dữ liệu thông minh ở đây không có nghĩa là gắn liền với trí tuệ nhân tạo, không phải là cho máy học hiểu các từ ngữ của con người hay máy xử lý được ngôn ngữ tự nhiên mà nó thông minh bởi việc tổ chức lựa chọn dữ liệu biểu diễn trong ngôn ngữ được cấu trúc để máy có thể hiểu.
- Và sau đây chúng ta tìm hiểu về kiến trúc của web ngữ nghĩa.
- 1.3 Kiến trúc Semantic Web Web ngữ nghĩa được xây dựng trên nền hệ thống web hiện tại.
- Web ngữ nghĩa được coi là sự mở rộng của Web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên web.
- Hình 1.3 chỉ ra sơ đồ kiến trúc của Web ngữ nghĩa.
- Hình 1.3 - Kiến trúc của web ngữ nghĩa Từ sơ đồ kiến trúc của Web ngữ nghĩa, ta thấy có bảy tầng kiến trúc.
- Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 14 Unicode: chỉ đơn thuần là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp trên tất cả các quốc gia, đáp ứng tính nhất quán toàn cầu của web.
- Bất kỳ một người nào cũng có thể tạo một URI, và sở hữu chúng và chúng là một công nghệ cơ sở để xây dựng một hệ thống Web toàn cầu.
- Ví dụ: "http://www.example.org/Books#" là một không gian tên.
- RDF (Resource Description Framework): Khung mô tả tài nguyên RDF được W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa.
- Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 15 Còn đối tượng ở đây có thể là một tài nguyên hoặc một giá trị.
- đối tượng là " books " và các thông tin này có các URI tương ứng là "Http:/www.libary.org/ontology/ #libary", "Http:/www.libary.org/ontology/#lends" và "Http:/www.
- Http:/www.libary.org/ontology/#libary Http:/www.libary.org/ ontology/#books Http:/www.libary.org/ontology/#lends Ứng dụng Web ngữ nghĩa trong tìm kiếm thông tin về Luật Trang 16 Hình 1.5 - Đồ thị RDF gồm hai mệnh đề Để biểu diễn các mệnh đề RDF mà máy có thể hiểu, RDF định nghĩa ra một số cú pháp như: cú pháp Notation 3 (hay còn gọi là N3), cú pháp ngôn ngữ RDF/XML (mở rộng từ XML), hay đồ thị của các bộ ba như ví dụ Hình 1.5.
- RDFS (RDF schema) RDFS là một ngôn ngữ ontology đơn giản của web ngữ nghĩa, được coi là một ngôn ngữ cơ sở của web ngữ nghĩa.
- Ontology Vocabulary Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt