« Home « Kết quả tìm kiếm

Trích rút thông tin từ dữ liệu WEB cá nhân


Tóm tắt Xem thử

- BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI PHAN ĐỨC MINHTRÍCH RÚT THÔNG TIN TỪ DỮ LIỆU WEB CÁNHÂNLUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TINNGƯỜI HƯỚNG DẪN KHOA HỌC:1.
- LÊ THANH HƯƠNGHÀ NỘI – 2009 BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI PHAN ĐỨC MINHTRÍCH RÚT THÔNG TIN TỪ DỮ LIỆU WEB CÁNHÂNCHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TINLUẬN VĂN THẠC SĨ KHOA HỌCNGƯỜI HƯỚNG DẪN KHOA HỌC: TS.
- Tất cả các nội dung trích dẫn, thamkhảo và sử dụng lại đều là các thông tin tin cậy của các bài báo và tạp chí có uytín trên thế giới.Hà Nội, ngày tháng năm 2009Tác giả Luận vănPhan Đức Minh 2LỜI NÓI ĐẦUĐầu tiên, Tôi xin bày tỏ lòng biết ơn tới TS.
- 3MỤC LỤCLỜI CAM ĐOAN LỜI NÓI ĐẦU MỤC LỤC DANH MỤC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG CHƯƠNG 1: GIỚI THIỆU Đặt vấn đề Mục đích nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu Ý nghĩa khoa học và thực tiễn của đề tài CHƯƠNG 2: NỀN TẢNG VÀ CÁC HƯỚNG NGHIÊN CỨU LIÊN QUAN Một số khái niệm Khái niệm trích rút thông tin Phân đoạn Phân loại và kết hợp Phân cụm Các kiểu trích rút thông tin Các bước thực hiện của hệ thống trích rút thông tin Một số cách tiếp cận trong hệ thống trích rút thông tin Phương pháp thủ công Phương pháp tự động (học máy Cách tiếp cận mô hình đồ thị Mô hình Markov ẩn (HMM Mô hình Markov Entropy cực đại (MEMM Trường ngẫu nhiên điều kiện (CRF Đánh giá các cách tiếp cận liên quan CHƯƠNG 3: CÁC BÀI TOÁN CON TRONG TRÍCH RÚT THÔNG TIN Bài toán trích rút dựa trên xây dựng mẫu Xây dựng mẫu thủ công Xây dựng mẫu tự động Bài toán trích rút dựa trên luật Luật gán nhãn Luật ngữ cảnh Luật hiệu chỉnh Khái quát luật Bài toán trích rút dựa trên phân loại Bài toán trích rút dựa trên gán nhãn tuần tự CHƯƠNG 4: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG Kiến trúc hệ thống Các chức năng hệ thống Mô-đun phân vùng văn bản Mô-đun gán nhãn và phân tích từ vựng Mô-đun học Mô-đun nhận dạng thực thể định danh Mô-đun loại bỏ sự nhập nhằng Mô-đun đồng tham chiếu Hệ thống trích rút thông tin dùng CRF Suy diễn tham số cực đại khả năng Quy nạp đặc trưng trong mô hình CRF Quy nạp mô hình CRF cấu trúc tùy ý Suy diễn đặc trưng cho chuỗi tuyến tính CRF Lập trình Động Huấn luyện mô hình CRF CHƯƠNG 5: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG Cài đặt ứng dụng Giới thiệu ứng dụng trích rút thông tin StanfordCRF Thực hiện huấn luyện và kiểm thử Đánh giá kết quả Dữ liệu Các tiêu chí đánh giá Kết quả thử nghiệm Đánh giá kết quả CHƯƠNG 6: KẾT LUẬN Các kết quả đạt được Hướng phát triển TÀI LIỆU THAM KHẢO TÓM TẮT LUẬN VĂN ABSTRACT OF THESIS DANH MỤC CHỮ VIẾT TẮTChứ viếttắtChữ đầy đủGiải nghĩaADJPAdjective phraseCụm tính từADVPAdverb phraseCụm phó từCOCoreference resolutionPhân giải đồng tham chiếuCONJPConjunction phraseCụm liên từCRFConditional random fieldsTrường ngẫu nhiên điều kiệnHMMHidden markov modelMô hình Markov ẩnIEInformation extractionTrích rút thông tinMEMMMaximum entropy markovmodelMô hình Markov entropi cựcđạiMUCMessage UnderstandingConferencesHội nghị Hiểu Văn bảnNERNamed entity recognitionNhận thực thể định danhNENamed entityThực thể định danhNPNoun phraseCụm danh từPOSPart of speechTừ loạiPPPrepositional phraseCụm giới từSTScenario TemplateMẫu kịch bảnTETemplate ElementPhần tử mẩuTRTemplate RelationQuan hệ mẫuVPVerb phraseCụm động từ 6DANH MỤC CÁC HÌNHHình 2.1 Các mô-đun của hệ thống trích rút thông tin Hình 2.2 Cây phân tích từ loại Hình 2.3 Cấu trúc đồ thị phụ thuộc cho HMMs Hình 2.4 Sơ đồ kiến trúc tổng quát của một HMM ban đầu Hình 2.5 Mô hình Markov ẩn cho nhận dạng thực thể định danh Hình 2.6 Cấu trúc đồ thị phụ thuộc cho MEMMs Hình 2.7 Cấu trúc đồ thị của CRF có cấu trúc chuỗi Hình 2.8 Trích rút quan hệ bằng gán nhãn chuỗi Hình 2.9 Mô hình CRF cho nhận dạng thực thể định danh Hình 2.10 Kết quả so sánh giữa CRF, MEMM và HMM Hình 2.11 Cấu trúc đồ thị lần lượt của HMMs,MEMMs, CRFs Hình 2.12 Bộ thu nhận trạng thái hữu hạn cho phân tích nông hai câu Hình 3.1 Sơ đồ trích rút giá trị thuộc tính dựa trên mẫu và luật ngôn ngữ Hình 3.2 Một nút khái niệm trong AutoSlog Hình 3.3 Ví dụ trích rút thông tin bằng phân loại Hình 4.1 Kiến trúc hệ thống trích rút thông tin Hình 5.1 Giao diện của hệ thống khi khởi tạo Hình 5.2 Chức năng nhận dạng các thực thể định danh theo phương pháp CRF DANH MỤC CÁC BẢNGBảng 2-1 Kết quả thí nghiệm so sánh giữa HMMS va MEMM Bảng 2-2 Kết quả của nhiệm vụ gán nhãn từ loại trong Bảng 3-1 Các mẫu ví dụ thu được bằng cách tiếp cận trích rút mẫu tự động Bảng 3-2 Ví dụ về luật gán nhãn khởi tạo Bảng 3-3 Luật ngữ cảnh thêm nhãn vào câu (với tri thức NLP kết hợp Bảng 3-4 Luật hiểu chỉnh thay đổi nhãn từ vị trí sai đến vị trí đúng Bảng 3-5 Các luật được khái quát kết hợp với tri thức NLP kết hợp Bảng 4-1 Các đặc trưng nhị phân Bảng 4-2 Trích rút thực thể dịnh danh tiếng Anh có suy diễn và không suy diễn Bảng 5-1 Thống kê khái quát về tập dữ liệu huấn luyện Bảng 5-2 Bảng dữ liệu gồm 18 trường thuộc tính Bảng 5-3 Hiệu năng của hệ thống StanfordCRF với 5 bộ dữ liệu Bảng 5-4 Hiệu năng của hệ thống StanfordCRF theo 3 thực thể Bảng 5-5 Độ chính xác của CRFs thay đổi theo vòng lặp Bảng 5-6 Thống kê về kết quả thử nghiệm CHƯƠNG 1: GIỚI THIỆU1.1 Đặt vấn đềTrong nhưng năm năm gần gần đây, lĩnh vực xử lỷ ngôn ngữ tự nhiênngày càng phát triển.
- Đề tài này sẽ sử dụng công nghệ trích rút thông tintrong xử lý ngôn ngữ tự nhiên để xây dựng hệ thống trích rút thông tin từ dữliệu web cá nhân.Trích rút thông tin là một bài toán rất phổ biến và quan trọng, được ápdụng trong tìm kiếm và thu thập thông tin trong nhiều lĩnh vực khác nhau, nócung cấp thông tin hữu ích giúp cho việc ra quyết định cho một cá nhân haymột tổ chức một cách nhanh chóng.
- Bài toán trích rút thông tin từ dữ liệuweb cá nhân là một khía cạnh trong các bài toán trích rút thông tin như vậy.Các thông tin trích rút từ đơn giản như họ tên, ngày sinh, nghề nghiệp, nơilàm việc, chuyên môn, cho đến những thông tin phức tạp như hướng nghiêncứu, các bài báo đã công bố…Đã có rất nhiều bài báo viết về việc trích rút thông tin từ các websitecá nhân như trích rút lý lịch cá nhân.
- Một vấn đề đặt ra đó là việc trích rút đóliên quan đến văn bản phi cấu trúc, viết theo lối tự do nên sẽ rất khó chochúng ta trích rút được chính xác hoàn toàn.
- Trích rút tự động sẽ giúp ta thuthập được nhiều thông tin hơn, và đưa vào cơ sở dữ liệu.
- Tiêu biểu trong sốnày là phương pháp trích rút mô hình Markov ẩn (HMM), hay mô hìnhMarkov entropy cực đại (MEMM) và phương pháp mới nhất hiện nay đó làmô hình trường ngẫu nhiên điều kiện (CRF).
- Trong luận văn này chúng tôi 9sẽ đi sâu vào phương pháp trích rút tự động kết hợp các ưu điểm của các môhình trên.Khi giải quyết bài toán trích rút thông tin từ các website cá nhân,chúng tôi đặt ra rất nhiều câu hỏi trước khi tiến hành giải quyết và xử lý.
- Loại văn bản và cách trình bày văn bản: Đó là loại văn bản mà taxử lý, có thể là một bài báo, một bức thư điện tử, một trang web,… Mỗi loạivăn bản hay thậm chí cùng một loại văn bản sẽ có một cách trình bày thôngtin khác nhau.
- Ví dụ như: Loại văn bản không có định dạng quy cách nào như văn bản tự do(email, các thông điệp tức thì.
- Loại văn bản vẫn có quy tắc câu nhưng có một vài định dạng quycách, ví dụ như xuống dòng, cách dòng. Loại văn bản không có cấu trúc câu nhưng giàu định dạng quycách Loại văn bản có dạng bảng như các bảng thống kê.Như vậy các văn bản càng nhiều định dạng quy cách thì việc trích rút thôngtin càng dễ cho ta.2.
- Độ phức tạp của các mẫu câu: Các mẫu câu càng đơn giản và ítnhập nhằng thì việc trích rút thông tin càng trở lên dễ dàng hơn.
- Ngược lạivới các câu phức tạp và nhiều nhập nhằng, mơ hồ, có nhiều hơn một nghĩathì để trích rút được thông tin thì cần thêm ngữ cảnh xung quanh để loại bỏsự nhập nhằng trong câu.- Loại câu đơn giản: He was born in Alabama…- Loại câu phức tạp: ví dụ như tên địa chỉ University of Arkansas,P.O.
- Miền lĩnh vực: Mỗi loại lĩnh vực có một đặc thù riêng, có các thựcthể đối tượng riêng vì vậy việc trích rút thông tin cũng có những cách làmkhác nhau.
- Kịch bản: Trong cùng một văn bản, có người quan tâm đến thôngtin này, nhưng có người lại quan tâm đến thông tin khác (như vậy là theo cáckịch bản khác nhau).
- Mỗi kịch bản lại quan tâm đến các thực thể khác nhau,có mối quan hệ ràng buộc khác nhau nên việc trích rút thông tin cũng sẽ khácnhau.5.
- Với nhận dạng tự động, khichuyển sang loại văn bản khác phải chỉnh sửa lại các quy tắc và các luật.
- Ngôn ngữ văn bản: Chúng tôi trước hết trích rút thông tin từ cácweb site cá nhân bằng tiếng Anh.
- Hướng phát triển tiếp theo của luận vănnày là trích rút thông tin từ các web site cá nhân bằng tiếng Việt Nam.
- Tính ổn định: là thách thức chính đối với trích rút thông tin.
- Trong khía cạnh này, hệ thống trích rút thông tin nói chung co dãntốt, chúng dựa trên các luật trích rút hẹp đơn giản hơn là xử lý ngôn ngữ tựnhiên phức tạp.
- Thước đo thứ hai và nhiều vấn đề hơn là số lượng các nguồndữ liệu khác nhau.1.2 Mục đích nghiên cứuMục đích của đề tài nghiên cứu và tìm hiểu xây dựng một mô hình hệthống trích rút thông tin mới có những đặc điểm sau:- Dựa trên cơ sở lý thuyết của ngôn ngữ tự nhiên 11- Dựa trên các phương pháp học luật, phân loại và gán nhãn tuần tự- Dựa trên các kết quả so sánh và thống kê có sẵn- Đề xuất một số phương pháp học luật cải tiến- Thiết kế ra một hệ thống trích rút thông tin trong phạm vi nghiêncứu1.3 Đối tượng nghiên cứuĐể đạt được các mục đích nói trên, chúng tôi cần nghiên cứu các vấnđề sau:- Các kết quả trích rút tự động và bán tự động của hệ thống trích rútthông tin bằng ngôn ngữ tiếng Anh.- Các kết quả nghiên cứu so sánh của các hệ thống trích rút thông tinđã có từ đó xây dựng nên mô hình học luật, học máy tự động kếthợp với các phương pháp suy diễn, thống kê.1.4 Phạm vi nghiên cứuViệc trích rút thông tin từ một tập tài liệu bao gồm rất nhiều bước vàđòi hỏi nhiều kỹ thuật kết hợp.
- Mỗi bước liên quan đến hàng trăm bài báo,công trình nghiên cứu khác nhau với rất nhiều cách tiếp cận.
- Vì vậy, trong khuôn khổ của một luận văn, chúng tôi chỉ giới hạnnghiên cứu trích rút thông tin cá nhân liên quan từ các website của ngườiViệt Nam làm công nghệ thông tin.
- Trước hết là các trang web bằng tiếngAnh.Trong số các bước đó, thì các bước xây dựng mẫu, xây dựng và họcluật, phân loại và gán nhãn tuần tự chiếm phần lớn nội dung nghiên cứu củachúng tôi.
- Tất cả các bước này đã được nghiên cứu rất chi tiết và tỉ mỉ bởihàng ngàn nhà khoa học trên toàn thế giới.
- 12Chúng tôi sẽ kế thừa các mô hình các kết quả tốt nhất từ các bài báo nướcngoài mà chúng tôi đã tham khảo được.1.5 Ý nghĩa khoa học và thực tiễn của đề tài1.5.1 Ý nghĩa khoa họcĐề tài này nghiên cứu các mô hình trích rút thông tin tiên tiến nhất choviệc trích rút các thông tin cá nhân từ các website cá nhân.
- Các mô hình mớinày có những điểm mới sau:Dựa trên các phương pháp trích rút thông tin tự động và cho độ chínhxác cao hơn các mô hình trước đây.Dựa trên việc suy diễn, xây dựng luật, huấn luyện mẫu.1.5.2 Ý nghĩa thực tiễnTrích rút thông tin không bao giờ là cũ, và những quan điểm và ýtưởng mới luôn được đón nhận.Trích rút các thông tin từ các website cá nhân và đưa vào CSDL tiệncho việc tham khảo tra cứu sau này.
- Đưa ra những quan điểm và phươngpháp mới, đóng góp vào việc so sánh, đánh giá giữa các phương pháp tríchrút thông tin profile của các cá nhân.Là tài liệu liên quan và tham khảo đến những pháp trích rút thông tintự động mới hiện này trên toàn thế giới.
- 13CHƯƠNG 2: NỀN TẢNG VÀ CÁC HƯỚNG NGHIÊN CỨULIÊN QUAN2.1 Một số khái niệm2.1.1Khái niệm trích rút thông tinTrích rút thông tin (IE) thường được xác định như là quá trình lựachọn dữ liệu có cấu trúc và dữ liệu kết hợp.
- Quá trình này liên quan đến phânloại ngữ nghĩa của các mẩu thông tin chắc chắn và được xem xét như một bàitoán nhỏ của hiểu văn bản.Mục đích của nghiên cứu trích rút thông tin là xây dựng các hệ thốngđể tìm và kết nối các thông tin liên quan trong khi đó bỏ qua các thông tin lạvà không liên quan (Cowie and Lehnert, 1996, p.
- 81).Kết quả quả trích rút thông tin hoặc là phân loại đồng thời hoặc là cấutrúc thành các lớp thông tin ngữ nghĩa cụ thể được tìm thấy trong các nguồndữ liệu không có cấu trúc như văn bản ngôn ngữ tự nhiên, tạo ra thông tinthích hợp hơn cho các nhiệm vụ xử lý thông tin (W.
- Bruce Croft, 2006).Công thức trích rút thông tin cơ bản như sau:Information Extraction =segmentation + classification + association + clusteringCó hai cách tiếp cận chính cho hệ thống trích rút thông tin (Eikvil L.,1999.
- Hệ thống này được xây dựng bằng tay với cho lĩnh vực cụ thể vàkỹ sư tri thức đóng vai trò quan trọng trong hệ thống trích rút thông tin.• Tiếp cận huấn luyện tự động: tạo ra các luật và sử dụng thuật toán huấnluyện để học từ tập các tài liệu chú thích.
- 142.1.1.1 Phân đoạnPhân đoạn (segmentation) văn bản chia văn bản thành các thành phẩnnhỏ như các đoạn , các thẻ (token), sau đó trích rút các thông tin liên quan từcác đoạn và lắp ráp thông tin đích cùng với nhau trong một khung(framework) gắn kết.Ví dụ dưới lấy ra một người, nghề nghiệp, địa điểm làm việc, địa chỉlàm việc từ một văn bản cho theo hai kiểu phân đoạn khác nhau, trước khichúng được chuyển đến bộ phân loại.Phân đoạn theo kiểu thông thường (Formal)“Anita Sundaram Coleman is an Assistant Professor in the Schoolof Information Resources & Library Science at the Universityof Arizona, 1515 E.
- First St.University of ArizonaTucson, AZ Phân loại và kết hợpKết quả của trích rút thông tin cũng là để phân loại ngữ nghĩa nhằmđảm bảo sử dụng chúng trong hệ thống thông tin trong tương lai.
- Quá trìnhxử lý phân loại thường đòi hỏi một sơ đồ phân loại ngữ nghĩa phù hợp, ví dụnhư sơ đồ phân cấp tổ chức (ngữ nghĩa) từ một tập các lớp ngữ nghĩa trừutượng tới các phân loại cụ thể và chi tiết.Thường là các hệ thống trích rút thông tin trong lĩnh vực đóng đượcthiết kế với các chức năng trong miền tri thức chuyên môn hơn và sử dụng

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt