« Home « Kết quả tìm kiếm

Học mối quan hệ trong trích rút thông tin tiếng Việt


Tóm tắt Xem thử

- 1TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: HỌC MỐI QUAN HỆ TRONG TRÍCH RÚT THÔNG TIN TIẾNG VIỆT Tác giả luận văn: Chử Đăng Định Khóa Người hướng dẫn: TS.
- Trích rút thông tin là một bài toán khó và có nhiều tiềm năng ứng dụng thiết thực đã được nhiều nhà nghiên cứu trên thế giới quan tâm.
- Đối với tiếng Việt, các nghiên cứu về bài toán trích rút thông tin tiếng Việt còn khá mới mẻ và còn hạn chế.
- Từ thực tế đó, tác giả luận văn đã chọn thực hiện đề tài “Học mối quan hệ trong trích rút thông tin tiếng Việt”.
- Mục đích của đề tài nghiên cứu này là tìm hiểu về các kỹ thuật học, cụ thể là học mối quan hệ, đề xuất áp dụng mô hình học RAPIER vào tiếng Việt (mô hình vnRAPIER) và đưa ra một số đóng góp cải tiến cho mô hình này.
- Mô hình RAPIER, do tác giả Mary Elaine Califf (Đại học Texas) đề xuất, sử dụng một giải thuật học mối quan hệ mà kết hợp các kỹ thuật từ một số hệ thống ILP (Inductive Logic Programming) và sử dụng chủ yếu dạng tìm kiếm từ cụ thể đến khái quát (dưới-lên).
- RAPIER học các luật trích rút thông tin xuất phát từ ngữ liệu là các văn bản đi kèm với các khuôn mẫu thông tin điền sẵn (filled templale).
- Các luật đó tạo ra các mục thông tin mong muốn một cách trực tiếp từ các văn bản mà không có phân tích cú pháp trước hay bất cứ khâu hậu xử lý nào.
- Ngoài việc kế thừa các giải thuật mà mô hình đã có, người viết đã có các cải tiến, đóng góp mới của mình, đó là: tích hợp tác vụ nhận dạng thực thể có tên (Named-Entity Recognition - NER) vào khâu tiền xử lý văn bản.
- bổ sung chức năng sinh luật trích rút gần đúng với các mục thông tin trích rút có cấu trúc đặc biệt.
- bổ sung khả năng tùy biến độ rộng cửa sổ so khớp theo từng trường thông tin cần trích rút.
- Hướng tiếp cận của người viết luận văn là sử dụng các thành quả đã đạt được về xử lý văn bản tiếng Việt như bài toán phân tách từ, bài toán gán nhãn từ loại, đồng thời sử 2dụng các tài nguyên sẵn có về tiếng Việt để tự xây dựng từ điển ngữ nghĩa tiếng Việt (ở mức sơ khai).
- Dựa trên giải thuật đưa ra trong mô hình vnRAPIER, người viết cũng xây dựng chương trình thực nghiệm với lĩnh vực thực nghiệm là trích rút thông tin từ các trang web cá nhân của các nhà khoa học người Việt trong và ngoài nước.
- Kết luận Trong luận văn này, tác giả đã nghiên cứu, đề xuất hướng tiếp cận học mối quan hệ đối với bài toán trích rút thông tin tiếng Việt và trình bày các kết quả nghiên cứu thực nghiệm theo hướng tiếp cận này đã tiến hành trong khoảng thời gian nghiên cứu gần 9 tháng vừa qua với sự hỗ trợ của Cô giáo, Tiến sĩ Lê Thanh Hương.
- Đây là hướng tiếp cận đã được nghiên cứu, áp dụng để trích rút thông tin tiếng Anh.
- Khi áp dụng vào tiếng Việt, tác giả đã khai thác các nguồn lực sẵn có về tiếng Việt từ các nghiên cứu đã công bố, đồng thời đưa ra một số cải tiến cho mô hình như tích hợp tác vụ nhận dạng thực thể có tên (Named-Entity Recognition - NER) vào khâu tiền xử lý văn bản.
- Do thời gian có hạn nên tác giả chưa thể tự xây dựng được mô đun nhận dạng thực thể có tên một cách tự động.
- Thay vào đó, tác giả thực hiện tác vụ này bằng tay để thực nghiệm nhằm đánh giá vai trò của tác vụ nhận dạng thực thể có tên đối với mô hình này.
- Tuy kết quả thu được từ thực nghiệm chưa đạt được như kỳ vọng do nguồn lực sẵn có về tiếng Việt còn hạn chế, số ngữ liệu mẫu thu thập được chưa nhiều nhưng đã cho thấy các cải tiến của tác giả đã phát huy hiệu quả nhất định.
- Những kết quả bước đầu đạt được này đã giúp khẳng định được tính đúng đắn cũng như tiềm năng của hướng tiếp cận học mối quan hệ trong trích rút thông tin tiếng Việt mà tác giả đề xuất, tạo tiền đề cho định hướng nghiên cứu phát triển tiếp theo của tác giả.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt