« Home « Kết quả tìm kiếm

Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán


Tóm tắt Xem thử

- Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán.
- Luận văn ThS chuyên ngành: Công nghệ thông tin.
- Abstract: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán: nhu cầu tích hợp thông tin, những vấn đề cần quan tâm trong xây dựng hệ tích hợp dữ liệu, những phương pháp tích hợp thông tin.
- Giới thiệu Ontology và vai trò biểu diễn ngữ nghĩa dữ liệu của Ontology trong việc tích hợp thông tin phân tán và không thuần nhất.
- Giới thiệu một số giải thuật thường được sử dụng trong phân lớp dữ liệu.
- Khảo sát về phân lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn giản trong cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn dữ liệu cần phân lớp.
- Trình bày kết quả thực nghiệm cho phân lớp NB và TANB.
- Đưa ra kết luận, đánh giá về phân lớp NB và TANB..
- Keywords: Công nghệ thông tin, Dữ liệu, Môi trường phân tán, Tích hợp thông tin.
- Những phát triển trong công nghệ truyền thông và trong công nghệ lưu trữ dữ liệu dưới dạng số cùng với sự phát triển về khả năng thu nhận và lưu trữ dữ liệu tạo nên sự phong phú và đa dạng về các dạng và các nguồn dữ liệu.
- Hiện nay, chúng ta đã có khả năng thu thập các nguồn dữ liệu lớn thuộc nhiều lĩnh vực khác nhau, như trong y học (dữ liệu về ADN, dữ liệu về các chuỗi protein, dữ liệu về các chuỗi gen), trong thương mại (dữ liệu về hàng hoá, dữ liệu khách hàng, dữ liệu về các giao dịch), trong địa lý (dữ liệu về thông tin bề mặt trái đất)..
- Sự đa dạng về nguồn thông tin trong cùng một lĩnh vực đặt ra khó khăn cho nhu cầu kết hợp các nguồn dữ liệu để cung cấp những thông tin cần thiết cho người sử dụng.
- Tại mỗi trang web, người dùng có thông tin về giá thành, chế độ bảo hành, thời gian bảo hành.
- Trong tự động hóa quá trình tìm kiếm thông tin, các hệ thống trợ giúp người dùng sẽ lấy thông tin từ các nguồn dữ liệu tại các trang web khác nhau, thực hiện việc so sánh và đưa ra gợi ý cho người dùng.
- Thông thường dữ liệu từ các nguồn này có các đặc trưng phân tán, tự trị và không thuần nhất..
- Tính phân tán: Các nguồn dữ liệu thường được lưu trữ phân tán tại các vị trí khác nhau và hoàn toàn độc lập với nhau.
- Do vậy, khi cần lấy thông tin, hệ thống phải xác định được vị trí lưu trữ của các nguồn dữ liệu..
- Tính không thuần nhất: Thể hiện dưới nhiều dạng: không thuần nhất về cấu trúc, không thuần nhất về khuôn dạng dữ liệu và không thuần nhất về ngữ nghĩa..
- Không thuần nhất về cấu trúc có nghĩa là mỗi nguồn dữ liệu khác nhau sử dụng một cấu trúc khác nhau để lưu trữ dữ liệu.
- Không thuần nhất về khuôn dạng dữ liệu là các nguồn dữ liệu không sử dụng cùng một khuôn dạng trong quá trình lưu trữ dữ liệu.
- Đặc biệt là không thuần nhất về ngữ nghĩa, đó là việc sử dụng những biểu diễn khác nhau cho một đối tượng.
- Dạng đơn giản của không thuần nhất ngữ nghĩa là sử dụng các tên gọi khác nhau cho một đối tượng xác định.
- Xét ví dụ về hai bảng dữ liệu của công ty kinh doanh thiết bị xe máy Honda..
- Khi muốn so sánh giá của các thiết bị thuộc hai nguồn dữ liệu D1 và D2, hệ thống cần hiểu rằng “Lốp sau” ở nguồn D1 và “Lốp 2.75” ở nguồn D2 là cùng chỉ đến một đối tượng.
- ở nguồn D2 đều là tên trường dữ liệu lưu trữ tên của các đối tượng..
- Bảng 1: Nguồn dữ liệu D1.
- Bảng 2: Nguồn dữ liệu D2.
- Tính tự trị: Các nguồn dữ liệu xác định cấu trúc và định dạng lưu trữ khi xây dựng.
- Các hệ thống khác khi muốn sử dụng thông tin của các nguồn chỉ có thể lấy thông tin mà không thể thay đổi về cấu trúc cũng như định dạng.
- Hoạt động của các nguồn dữ liệu là hoàn toàn độc lập với các đối tượng khác..
- Để có thể tích hợp thông tin trong môi trường phân tán và không thuần nhất, cần phải đưa ra các giải pháp cho vấn đề phân tán và không thuần nhất về ngữ nghĩa.
- Trong phần tiếp theo, luận văn tập trung trình bày các nghiên cứu về tích hợp thông tin và giải pháp thuần nhất ngữ nghĩa cho các nguồn dữ liệu..
- Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán.
- Tích hợp thông tin là cách tiếp cận thông tin bằng cách kết hợp các thành phần dữ liệu từ các hệ thống quản lý dữ liệu, các hệ thống quản lí nội dung, các kho dữ liệu và các ứng dụng thương mại khác vào một miền chung.
- Tích hợp thông tin được nghiên cứu và sử dụng rộng rãi trong lĩnh vực tài chính [21] với giải pháp quản lí các biểu diễn ngữ nghĩa dựa trên EOC (Equational Ontological Conflicts), nhằm tạo ra sự thuần nhất trong việc biểu diễn và tính toán dữ liệu tại các nguồn dữ liệu khác nhau..
- Trong sinh học [8], Caragea (2005) cùng các cộng sự xây dựng INDUS (Intelligent Data Understanding System) như một hệ thống trả lời các truy vấn người dùng từ các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa.
- INDUS xây dựng một hệ thống các ontology cho quá trình thuần nhất ngữ nghĩa các nguồn dữ liệu.
- Để giải quyết vấn đề mất thông tin trong việc sử dụng định dạng dựa trên CAD như DXF để biểu diễn dữ liệu cho bài toán tích hợp thông tin địa lý, F.
- Một trong lớp những giải thuật học máy, phân lớp dữ liệu nhận được sự quan tâm của nhiều nhà nghiên cứu.
- Caragea [10] trình bày các giải thuật học từ dữ liệu thông qua việc cải tiến các giải thuật phân lớp tập trung thành các giải thuật phân lớp phân tán trong môi trường không thuần nhất về ngữ nghĩa.
- Ferrari [20] khi nghiên cứu về gien liên quan đến công việc quản gia đã sử dụng phân lớp Naïve Bayes để phân lớp dữ liệu.
- Phân lớp được sử dụng trong việc phân loại các văn bản trong các công việc văn phòng và phân loại thư điện tử [54].
- Trong lĩnh vực tài chính, việc nhận dạng giả mạo cũng cần đến các giải thuật phân lớp dữ liệu ([13],[47.
- ([1],[27]) đã xây dựng hệ thống phân lớp dữ liệu về bệnh nhân nhằm xác định các trường hợp có khả năng mắc bệnh ung thư cho các nghiên cứu về y học..
- Với nguồn dữ liệu huấn luyện sử dụng trong giai đoạn xây dựng mô hình và nguồn dữ liệu kiểm thử sử dụng trong giai đoạn phân lớp, bài toán phân lớp dữ liệu trong môi trường phân tán được chia thành các lớp bài toán sau:.
- Bài toán 1: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng tập trung..
- Bài toán 2: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng tập trung và nguồn dữ liệu kiểm thử ở dạng phân tán..
- Bài toán 3: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng phân tán..
- Luận văn tập trung giải quyết bài toán 1 với nguồn dữ liệu huấn luyện ở dạng phân tán và nguồn dữ liệu kiểm thử ở dạng tập trung.
- Sau khi giải quyết xong bài toán 1, bằng cách xây dựng nguồn dữ liệu tập trung dựa trên những dữ liệu huấn luyện phân tán và phân tán nguồn dữ liệu kiểm thử ta có được hướng giải quyết cho bài toán 2.
- Giải pháp cho bài toán 3 dựa vào giải pháp cho vấn đề phân tán của nguồn dữ liệu huấn luyện (bài toán 1) và giải pháp cho vấn đề phân tán của nguồn dữ liệu kiểm thử (bài toán 2)..
- Tìm hiểu sự không thuần nhất về ngữ nghĩa tồn tại giữa những nguồn dữ liệu tự trị, phân tán cho việc tích hợp dữ liệu.
- Dựa trên cách tiếp cận ontology, luận văn tích hợp các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa thông qua việc tích hợp các ontology..
- Tìm hiểu về phân lớp, các phương pháp phân lớp dữ liệu.
- Trình bày việc áp dụng phân lớp NB, TANB cho các nguồn dữ liệu tập trung và phân tán..
- Chương 1: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán.
- Trong chương này, luận văn sẽ trình bày về nhu cầu tích hợp thông tin cũng như những vấn đề cần.
- quan tâm và phương pháp tích hợp thông tin từ các nguồn dữ liệu phân tán.
- Đồng thời, giới thiệu về phân lớp dữ liệu phân tán và các phương pháp được sử dụng trong phân lớp dữ liệu..
- Chương 2: Ontology trong tích hợp thông tin phân tán và không thuần nhất.
- Trình bày phương pháp tích hợp thông tin dựa trên tích hợp các ontology của các nguồn dữ liệu mở rộng với ontology.
- Trong đó, luận văn cũng đưa ra được vai trò biểu diễn ngữ nghĩa dữ liệu của ontology trong việc tích hợp thông tin phân tán và không thuần nhất..
- Chương 3: Phân lớp dữ liệu tập trung và phân tán.
- Nội dung chương này nhằm trình bày một số giải thuật thường được sử dụng trong phân lớp dữ liệu.
- Luận văn tập trung trình bày về phân lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn giản trong cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn dữ liệu cần phân lớp..
- Phần này trình bày kết quả thực nghiệm cho phân lớp NB và TANB.
- Sau đó, luận văn đưa ra kết luận, đánh giá về phân lớp NB, TANB và hiệu quả của các phân lớp này đối với dữ liệu phân tán..
- Kết luận trình bày những nghiên cứu về tích hợp thông tin không thuần nhất về ngữ nghĩa, những đóng góp của luận văn và những định hướng nghiên cứu sắp tới..
- Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, pp.
- Subrahmanian (2003) “An Ontology-Extended Relational Algebra”, Proceedings of the IEEE Conference on Information Integration and Reuse, IEEE Press..
- In: Proceedings of the 2nd International Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA..
- In : Proceedings of the Twentieth International Conference on Machine Learning (ICML 2000), pages .
- Proceedings of the International Work-Conference on Artificial and Natural Neural Networks, IWANN'99..
- Tuffield (2005) “OntoMedia: An Ontology for the Representation of Heterogeneous Media”.In: Proceedings of Multimedia Information Retrieval Workshop (MMIR 2005) SIGIR, Brazil..
- In: Proceedings of {SIGIR}-01, 24th {ACM} International Conference on Research and Development in Information Retrieval..
- In: Proceedings of the Seventh International Workshop on Artificial Intelligence and Statistics (Ft.
- Andreasen (2003) “On Similarity Measures for Concept – based Querying” In: Proceedings IFSA'03 International Fuzzy Systems Association World Congress, Istanbul, Turkey, June 29 - July 2 2003.
- In: Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03)..
- In: Proceedings of the 13th International Conference on Advanced Information Systems Engineering..
- In: Proceedings of Dagstuhl Seminar 04391, Dagstuhl, Germany (2004)..
- In: Proceedings of the first intenational conference on knowledge capture (K-CAP'01), pages 440-444..
- In: Proceedings of the 2006 ACM symposium on Applied computing, Dijon, France SESSION: Information access and retrieval (IAR) Pages:.
- In: Proceedings of the Fourth International Conference on Ontologies, Databases and Applications of Semantics (ODBASE), Agia Napa, Cyprus, Oct 31 - Nov 4, 2005..
- In: Proceedings of the IJCAI-01 Workshop:.
- In: Proceedings of the Eight Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 04) pages 319-328.