« Home « Kết quả tìm kiếm

Học mối quan hệ trong trích rút thông tin tiếng Việt


Tóm tắt Xem thử

- CHỬ ĐĂNG ĐỊNH ĐỀ TÀI: HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT LUẬN VĂN THẠC SỸ NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: LÊ THANH HƯƠNG HÀ NỘI – 2010 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 1 LỜI CAM ĐOAN Tôi Chử Đăng Định – học viên lớp Cao học CNTT 2008-2010 xin cam kết: 1.
- Hà Nội, ngày 29 tháng 10 năm 2010 Tác giả LVTN Chử Đăng Định LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 2 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn chân thành và sâu sắc nhất tới cô giáo TS.
- Em chân thành cảm ơn các thầy cô trong Viện Công nghệ Thông tin và Truyền thông đã cung cấp kiến thức quý báu cho em trong những năm học vừa qua.
- Xin chân thành cảm ơn các thành viên trong nhóm xử lý ngôn ngữ tự nhiên của Viện Công nghệ Thông tin và Truyền thông đã đưa ra góp ý, nhận xét về giải pháp cũng như kết quả của đề tài.
- Hà Nội 10/2010 Học viên: Chử Đăng Định Lớp: Cao học CNTT 2008-2010 LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 3 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ PHẦN MỞ ĐẦU CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ HÌNH HỌC QUAN HỆ .
- Tổng quan về trích rút thông tin .
- Trích rút thông tin .
- Trích rút thông tin và thu thập thông tin .
- Kỹ thuật học quan hệ kiểu ký hiệu (symbolic .
- Từ điển từ vựng (Lexicon LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 4 1.4.4.
- Kết chương CHƯƠNG 2 HƯỚNG TIẾP CẬN RAPIER CHO BÀI TOÁN TRÍCH RÚT THÔNG TIN .
- Giải thuật học .
- Kết chương CHƯƠNG 3 ĐỀ XUẤT MÔ HÌNH RAPIER CHO TRÍCH RÚT THÔNG TIN TIẾNG VIỆT .
- Các điều chỉnh khi áp dụng mô hình RAPIER với tiếng Việt .
- Công cụ tách từ tiếng Việt .
- Công cụ gán nhãn từ loại tiếng Việt .
- Cây ngữ nghĩa và từ điển ngữ nghĩa tiếng Việt .
- Các cải tiến cho mô hình .
- Sinh luật trích rút gần đúng .
- Tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 5 3.3.
- Thiết kế tổng thể của hệ thống trích rút thông tin tiếng Việt .
- Chức năng trích rút thông tin .
- Kết chương CHƯƠNG 5 – CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ .
- Về các luật trích rút gần đúng KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO PHẦN PHỤ LỤC PHỤ LỤC 1 - TẬP CÁC NHÃN TỪ LOẠI TIẾNG VIỆT ĐƯỢC SỬ DỤNG109 PHỤ LỤC 2 - TẬP LUẬT KẾT QUẢ THỰC NGHIỆM LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 6 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT STT Từ viết tắt Giải nghĩa 1.
- filler Thông tin điền hay thông tin cần trích rút 3.
- HMM Hidden Markov Model Mô hình Markov ẩn 5.
- IE Hệ trích rút thông tin Information Extraction 6.
- IR Hệ thu thập thông tin Information Retrieval 8.
- literal Ký hiệu mệnh đề LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 7 STT Từ viết tắt Giải nghĩa 10.
- RAPIER Robust Automated Production of Information Extraction Rules Tự động linh hoạt sinh luật trích rút thông tin 15.
- slot-filler Thông tin cần trích rút của trường 16.
- SVM Support Vector Machine Mô hình máy vector hỗ trợ LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 8 DANH MỤC CÁC BẢNG Bảng 1.1: Đánh giá một số hệ thống tách từ tiếng Việt Bảng 5.1: Kết quả đo theo từng trường thông tin trong trường hợp có sử dụng luật trích rút gần đúng Bảng 5.2: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp có sử dụng luật trích rút gần đúng Bảng 5.3: Kết quả đo theo từng trường thông tin trong trường hợp không sử dụng luật trích rút gần đúng Bảng 5.4: Kết quả đo tổng thể và thời gian thực hiện trung bình trong trường hợp không sử dụng luật trích rút gần đúng LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 9 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1.
- Thu thập thông tin Hình 1.2.
- Trích rút thông tin Hình 1.3.
- Mối quan hệ giữa IR, IE và Full Text Understanding Hình 1.4: Giải thuật bao phủ FOIL Hình 1.5: Bước “tìm mệnh đề” trong giải thuật FOIL Hình 1.6: Hai trường hợp cụ thể của mối quan hệ uncle Hình 1.7: Mệnh đề LGG của các mệnh đề trong Hình Hình 1.8: Kết quả của việc đơn giản hóa các mệnh đề bằng cách loại bỏ các literal dư thừa Hình 1.9: Giải thuật xây dựng mệnh đề của GOLEM Hình 1.10: Giải thuật gộp của CHILLIN Hình 2.1: Ví dụ về các mẫu và các ràng buộc trong 1 luật Hình 2.2: Giải thuật RAPIER Hình 2.3: Giải thuật RAPIER để qui nạp các luật trích rút Hình 2.4: Một ví dụ về việc khái quát hóa hai phần tử mẫu Hình 2.5: Ví dụ về việc khái quát hóa một cặp hai mẫu cùng độ dài Hình 2.6: Hai mẫu khác độ dài.
- Các đường thẳng chỉ các các phần tử khác nhau có thể được nhóm cùng nhau để khái quát hóa Hình 2.7: Sáu cách có thể có các phần tử của các mẫu trong Hình 2.6 có thể được so sánh để khái quát hóa Hình 2.8: Cách nhóm thu được từ việc tìm một so khớp chính xác giữa phần tử 3 của mẫu dài với phần tử 2 của mẫu ngắn trong Hình 2.6.
- Khi các phần tử giống nhau đã được ghép cặp, phần còn lại chỉ còn lại một cách ghép nhóm Hình 2.9: Khái quát hóa của một mẫu hai phần tử với một mẫu không có phần tử nào Hình 2.10: Khái quát hóa của mẫu hai phần tử với mẫu có một phần tử.
- Vì mẫu B là mẫu dạng danh sách có độ dài 3, các khái quát hóa cũng phải có độ dài Hình 2.11: Giải thuật RAPIER để chuyên biệt hóa mẫu pre-filler của luật Hình 2.12: Giải thuật RAPIER để chuyên biệt hóa mẫu post-filler của luật Hình 2.13: Các pha trong giải thuật học RAPIER Hình 3.1: Giải thuật gộp theo nhãn thực thể Hình 4.1.
- Các chức năng hệ thống trích rút thông tin vnRAPIER Hình 4.2: Sơ đồ hệ thống trích rút thông tin vnRAPIER LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 10 Hình 4.3: Tiền xử lý văn bản đã gán nhãn thực thể có tên Hình 4.4: File văn bản đầu vào đã được gán nhãn thực thể bằng tay Hình 4.5: File văn bản sau khi gán nhãn từ loại Hình 4.6: Sơ đồ chức năng học luật trích rút Hình 4.7: Ví dụ về khuôn mẫu thông tin trích rút Hình 4.8: Một ví dụ về file chú thích cho văn bản huấn luyện Hình 4.9: Mỗi ví dụ huấn luyện gồm văn bản và phần chú thích Hình 4.10: Sơ đồ chức năng trích rút thông tin Hình 4.11: Sơ đồ chức năng đánh giá luật Hình 5.1: Độ đo F thu được theo số lượng ví dụ huấn luyện LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 11 PHẦN MỞ ĐẦU Trong những năm gần đây, với sự phát triển không ngừng của Internet, dẫn tới sự tăng trưởng chóng mặt về số lượng thông tin sẵn có trên mạng, trong đó phần nhiều là dưới dạng văn bản ngôn ngữ tự nhiên.
- Vấn đề đặt ra là làm sao chúng ta thu thập được đúng và đủ những thông tin cần thiết từ mỗi văn bản mà cỗ máy đó tìm kiếm đem về.
- Đó chính là công việc của trích rút thông tin (Information Extraction - IE).
- Trước các thành công của các phương pháp xử lý ngôn ngữ tự nhiên mang tính thực nghiệm, các nhà nghiên cứu đã bắt đầu áp dụng các phương pháp học để xây dựng các hệ thống trích rút thông tin (McCarthy & Lehnert, 1995.
- LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 12 Huffman, 1996).
- RAPIER học các luật đối với tác vụ trích rút thông tin, các luật đó tạo ra các mục thông tin mong muốn một cách trực tiếp từ các tài liệu mà không có phân tích cú pháp trước hay bất cứ khâu hậu xử lý nào.
- Xuất phát từ ngữ liệu các tài liệu đi đôi với các khuôn mẫu thông tin điền sẵn (filled templale), RAPIER học các mẫu dạng Eliza (Weizenbaum, 1966) tạo ra các thông tin ràng buộc về cú pháp và ngữ nghĩa, bằng cách sử dụng các nguồn tri thức linh hoạt, sẵn có và miễn phí như bộ gán nhãn từ loại (POS tagger) hay bộ từ vựng.
- Do đó, RAPIER sử dụng một giải thuật học mối quan hệ mà kết hợp các kỹ thuật từ một số hệ thống ILP (Inductive Logic Programming).
- Các kỹ thuật đó là phù hợp vì chúng được phát triển để làm việc với cách biểu diễn phong phú, có biểu thị quan hệ (các mệnh đề logic bậc 1).
- Tuy nhiên, các nghiên cứu về tiếng Việt thì còn khá mới mẻ và còn hạn chế.
- Vì vậy, người viết luận văn xin thực hiện đề tài “Học mối quan hệ trong trích rút thông tin tiếng Việt”.
- Mục đích của đề tài là tìm hiểu về các kỹ thuật học, cụ thể là học mối quan hệ, áp dụng mô hình học RAPIER vào tiếng Việt và đưa ra một số đóng góp cải tiến cho mô hình này.
- Hướng tiếp cận của người viết luận văn là sử dụng các thành quả đã đạt được về xử lý văn bản tiếng Việt như bài toán phân tách từ, bài toán gán nhãn từ loại, đồng thời LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 13 sử dụng các tài nguyên sẵn có về tiếng Việt để tự xây dựng từ điển ngữ nghĩa tiếng Việt (ở mức sơ khai).
- Dựa trên giải thuật đưa ra trong mô hình RAPIER, người viết cũng xây dựng chương trình thực nghiệm với lĩnh vực thực nghiệm là trích rút thông tin từ các trang web cá nhân của các nhà khoa học người Việt trong và ngoài nước.
- bổ sung chức năng sinh luật trích rút gần đúng với các mục thông tin trích rút có cấu trúc đặc biệt.
- bổ sung khả năng tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin cần trích rút.
- Trình bày về các cơ sở lý thuyết của lĩnh vực trích rút thông tin, các mô hình học quan hệ và các công cụ và nguồn lực xử lý ngôn ngữ tự nhiên mà mô hình đề cập có thể sử dụng.
- Hướng tiếp cận RAPIER cho bài toán trích rút thông tin.
- Phần này trình bày cách biểu diễn luật, tiêu chuẩn đánh giá luật, giải thuật học và áp dụng phương pháp học chủ động vào mô hình.
- Trình bày đề xuất mô hình RAPIER cho trích rút thông tin tiếng Việt (vnRAPIER), trong đó đề cập tới các điều chỉnh khi áp dụng mô hình RAPIER vào tiếng Việt đồng thời đưa ra các đóng góp cải tiến đối với mô hình.
- Trình bày về phân tích và thiết kế tổng thể hệ thống trích rút thông tin tiếng Việt thực nghiệm dựa trên mô hình đề xuất vnRAPIER.
- Cài đặt mô hình và kiểm thử kết quả.
- LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 14 CHƯƠNG 1 TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN VÀ CÁC MÔ HÌNH HỌC QUAN HỆ NỘI DUNG: 1.1.
- Tổng quan về trích rút thông tin 1.2.
- Kỹ thuật học quan hệ kiểu ký hiệu (symbolic) 1.3.
- Kết chương LUẬN VĂN THẠC SỸ KHOA HỌC ĐỀ TÀI: “HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT” 15 1.1.
- Tổng quan về trích rút thông tin 1.1.1.
- Trích rút thông tin Trích rút thông tin là quá trình lấy ra các mẩu thông tin cần thiết từ các dữ liệu thô hoặc dữ liệu bán cấu trúc (văn bản ngôn ngữ tự nhiên).
- Thông tin được lấy ra là những thông tin có cấu trúc.
- Thông tin trích rút sau đó có thể được lưu trong cơ sở dữ liệu mà có thể được truy vấn bằng các ngôn ngữ truy vấn cơ sở dữ liệu hoặc một giao diện cơ sở dữ liệu ngôn ngữ tự nhiên.
- Tác vụ trích rút thông tin rất hữu ích trong các tình huống nơi một tập hợp các tài liệu văn bản có chứa thông tin có thể được sử dụng dễ dàng hơn bởi con người hay máy tính nếu các thông tin đã có sẵn trong một định dạng cơ sở dữ liệu thống nhất.
- Như vậy, một hệ thống trích rút thông tin được đưa ra tập hợp các tài liệu và một khuôn mẫu các trường thông tin (slot) để được điền thông tin từ tài liệu đó.
- Các hệ thống trích rút thông tin sẽ xác định vị trí và tìm cách xác định cụ thể phần thông tin cần thiết từ mỗi tài liệu.
- Dữ liệu được trích rút từ văn bản có hai dạng khác nhau: dạng phổ biến là hệ thống xác định và lấy trực tiếp một chuỗi từ văn bản.
- dạng thứ hai là hệ thống chọn từ một tập các giá trị có thể điền được vào trường thông tin đó.
- Một ví dụ cho dạng thứ hai này là các mục thông tin ngày tháng cần định dạng thống nhất, hoặc đơn giản là các mục cung cấp các giá trị thống nhất cho thông tin thể hiện trong văn bản.
- Dữ liệu được trích rút có thể được chỉ rõ theo một trong hai cách.
- Hệ thống có thể điền vào một mẫu với các giá trị lấy từ văn bản, hoặc trong trường hợp tất cả các trường thông tin được điền trực tiếp bởi các chuỗi từ văn bản, hệ thống có thể tạo chú thích trực tiếp trên văn bản đó.
- Trích rút thông tin có thể hữu ích trong nhiều lĩnh vực.
- Một số khác đã sử dụng trích rút thông tin để theo dõi hồ sơ y tế

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt