« Home « Kết quả tìm kiếm

Trích rút sự kiện từ văn bản tiếng Việt.


Tóm tắt Xem thử

- NGUYỄN VĂN CƢỜNG TRÍCH RÚT SỰ KIỆN TỪ VĂN BẢN TIẾNG VIỆT Chuyên ngành : Công Nghệ Thông Tin LUẬN VĂN THẠC SĨ KỸ THUẬT Công nghệ thông tin NGƢỜI HƢỚNG DẪN KHOA HỌC : PGS.TS.
- TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN.
- 13 2.1 Trích rút thông tin.
- 13 2.2 Trích rút sự kiện.
- 14 2.2.1 Định nghĩa sự kiện.
- 15 2.2.2 Bài toán trích rút sự kiện.
- 15 2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt.
- 16 2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện.
- 17 2.5 Ý nghĩa bài toán trích rút sự kiện hội thảo khoa học.
- PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH RÚT SỰ KIỆN.
- 27 3.4 Mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt.
- 29 3.4.1Thu thập dữ liệu.
- 31 3.4.2.3 Gán nhãn dữ liệu.
- 33 3.6 Thiết kế cơ sở dữ liệu.
- 40 4.2.3 Luật xây dựng tên sự kiện nhƣ sau.
- 45 4.4 Đƣa dữ liệu lên Web, khai thác tìm kiếm thông tin.
- 52 4.5 Đánh giá quá trình rút sự kiện.
- 59 5 LỜI CAM ĐOAN Tôi xin cam đoan giải pháp trích rút sự kiện từ văn bản tiếng Việt đƣợc trình bày trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn của PGS.TS Lê Thanh Hƣơng.
- Tác giả Nguyễn Văn Cƣờng 6 LỜI CẢM ƠN Luận văn Trích rút sự kiện từ văn bản tiếng Việt là kết quả của quá trình học tập và nghiên cứu trong suốt thời gian học tập Thạc Sỹ tại Trƣờng Đại học Bách khoa Hà Nội.
- Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn đến Ban lãnh đạo Viện Công nghệ thông tin và Truyền thông, Viện Đào tạo sau đại học, Bộ môn Hệ thống Thông tin thuộc trƣờng Đại học Bách khoa Hà Nội đã tạo điều kiện thuận lợi trong quá trình học tập và nghiên cứu để hoàn thành luận văn này.
- 24 Hình 3.2 Mô hình quá trình trích rút sự kiện hội thảo khoa học.
- 48 Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do.
- 49 Hình 4.5 Kết quả trích rút từ văn bản có định dạng.
- 49 Hình 4.6 Thông tin về tên hội thảo đƣợc lƣu trong bảng tenhoithao.
- 51 Hình 4.8 Sau khi trích rút thông tin hiện thị trên website.
- 55 9 MỞ ĐẦU Trên thế giới đã có rất nhiều công trình nghiên cứ về trích rút thông tin (Information Extraction - IE), trích rút sự kiện (Event Extraction - EE) là một lĩnh vực con của trích rút thông tin (Information Extraction - IE).
- Trong những năm gần đây, trích rút sự kiện đã thu hút đƣợc rất nhiều sự quan tâm của các nhà khoa học trên khắp thế giới, nó đã thu đƣợc nhiều kết quả và đƣợc cộng đồng trên khắp thế giới quan tâm.
- Chính vì vậy mà trích rút sự kiện đã đƣợc ứng dụng vào rất nhiều lĩnh vực khác nhau nhƣ kinh tế, chính trị, văn hóa, xã hội, y tế… Ngày nay cùng với sự phát triển nhanh chóng của Internet với việc kết nối máy tính băng thông rộng, việc tiếp cận khối lƣợng lớn từ các kho dữ liệu văn bản khắp nơi trên thế giới.
- Chính vì vậy đặt ra câu hỏi làm thế nào chúng ta lấy đƣợc những thông tin cần thiết và nhanh nhất từ lƣợng dữ liệu khổng lồ đó mà mất ít thời gian nhất.
- Trích rút thông tin cho phép chúng ta thu thập và lọc ra những thông tin cần thiết một cách dễ dàng nhanh chóng và thuận tiện… Trên thế giới đã có nhiều công trình nghiên cứu về trích rút sự kiện, ở Việt Nam các công trình nghiên cứu về vấn đề này còn ít.
- Trong luận văn này tác giả sẽ trình bày trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện, phƣơng pháp sử dụng trong luận văn, công cụ sử dụng trong luận văn.
- TỔNG QUAN 1.1 Tên đề tài Tên đề tài Tiếng Việt: Trích rút sự kiện từ văn bản tiếng Việt.
- 1.2 Lý do chọn đề tài Ngày nay, cùng với sự phát triển nhanh của đất nƣớc và hội nhập với khu vực thì công nghệ thông tin đóng vai trò quan trọng, nó đang phát triển mạnh mẽ vì thế nó đƣợc ứng dụng trong nhiều lĩnh vực của cuộc sống xã hội.
- Với sự phát triển mạnh mẽ của Internet kết nối băng thông rộng cho phép chúng ta tìm kiếm thông tin một cách dễ dàng cùng với nguồn dữ liệu rất đa dạng và phong phú từ Internet.
- Ngƣời sử dụng luôn mong muốn có những thông tin chính xác và đƣợc tổng hợp từ nhiều nguồn khác nhau để dễ dàng theo dõi, tìm kiếm, lƣu trữ,… vì vậy cần có một hệ thống trích rút sự kiện để ngƣời dùng dễ dàng khai thác.
- Trên thế giới, trích rút sự kiện đang rất đƣợc quan tâm.
- Để ứng dụng đƣợc vào trong thực tế thì hệ thống trích rút sự kiện thƣờng đƣợc cài cho một ứng dụng cụ thể.
- Ở Việt Nam, các nghiên cứu về trích rút sự kiện còn ít nhất là trong lĩnh vực trích rút sự kiện từ văn bản Tiếng Việt còn nhiều hạn chế.
- Chính vì vậy tôi đã lựa chọn đề tài: “Trích rút sự kiện từ văn bản tiếng Việt” mong muốn tìm ra những phƣơng pháp giải quyết tốt hơn hiệu quả hơn đạt kết quả tốt hơn, nghiên cứu sâu hơn.
- 1.3 Mục tiêu nghiên cứu.
- Từ lý do chọn đề tài nêu tại mục 1.2 trong luận văn tác giả nghiên cứu phƣơng pháp tiếp cận giải quyết bài toán trích rút sự kiện để trích rút các thực thể.
- Từ đó xây dựng và cài đặt một chƣơng trình demo ứng dụng trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt để hỗ trợ ngƣời dùng.
- 11 1.4 Phạm vi nghiên cứu Phạm vi nghiên cứu: Trong luận văn tập trung vào việc trích rút các thực thể trong lĩnh vực hội thảo.
- Tập dữ liệu thử nghiệm đƣợc thu thập từ các trang Website trực tuyến, các văn bản liên quan đến hội thảo.
- Trong luận văn tác giả sử dụng hệ thống văn phạm JAPE trong bộ công cụ phần mềm mã nguồn mở GATE để trích rút các thực thể, các thông tin liên quan đến trích rút nhƣ: Thời gian (bao gồm giờ phút, ngày tháng năm), tên địa chỉ (địa chỉ diễn ra hội thảo ở đâu), tên hội thảo là gì.
- Sau khi trích rút đƣợc các thực thể trên thì lƣu vào cơ sở dữ liệu.
- 1.5 Đóng góp chính của luận văn - Cung cấp phƣơng pháp tiếp cận giải quyết bài toán trích rút sự kiện và công cụ để trích rút ra các thuộc tính của thực thể.
- Đề xuất mô hình cho hệ thống trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt - Đƣa ra cái nhìn tổng quát về lĩnh vực trích rút sự kiện hiện nay.
- Chƣơng hai tác giả tập trung giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện.
- Chƣơng ba cung cấp phƣơng pháp, công cụ tiếp cận để trích rút các thực thể, tổng quan về công cụ GATE (giới thiệu về Gate, kiến trúc của Gate, ANNIE, bộ luật JAPE), mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, phân tích và thiết kế hệ thống, thiết kế cơ sở dữ liệu.
- TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN Ở trong chƣơng này tác giả tập trung chủ yếu giải quyết các vấn đề sau: giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện.
- 2.1 Trích rút thông tin.
- Ngày nay, trích rút thông tin (Information Extraction - IE ) có rất nhiều cách định nghĩa khác nhau.
- Song có thể định nghĩa nhƣ sau Trích rút thông tin là quá trình xử lý thông tin mà đầu vào là dạng văn bản bán cấu trúc hoặc văn bản phi cấu trúc nhƣ: văn bản, trang web… Văn bản này sau khi đƣợc đi qua hệ thống sẽ tự động trích rút ra các thực thể nhƣ: tên địa chỉ, tên ngƣời, tên quốc gia, tên cơ quan, tên tổ chức thành dạng văn bản có cấu trúc nhằm thỏa mãn nhu cầu của ngƣời sử dụng.
- Để trích rút ra các thông tin có cấu trúc từ nguồn dữ liệu bán cấu trúc và phi cấu trúc là một việc rất khó khăn, không hề dễ ràng chính vì thế nó đã thu hút đƣợc sự quan tâm của rất nhiều các nhà nghiên cứu trong những năm qua.
- Chính vì vậy trích rút thông tin ngày càng đƣợc quan tâm hơn bởi các nhà nghiên cứu khác nhau về học máy, truy vấn thông tin, cơ sở dữ liệu.
- Do đó hai hội nghị đã diễn ra rất quan trọng đối với các nghiên cứu về trích rút thông tin là: Message Understanding Conference (MUC) và Automatic Content Extraction (ACE) Trích rút thông tin từ văn bản có nhiều mức độ nhƣ: trích rút các thực thể (Named Entity Recognition –NER), trích rút quan hệ giữa các thực thể (Relation Extraction - RE), phân giải đồng tham chiếu (Co-reference Resolution).
- Các kỹ thuật đƣợc sử đụng trong trích rút thông tin bao gồm: phân đoạn, phân lớp, kết hợp, phân cụm.
- Về ứng dụng trong trích rút thông tin rất rộng rãi, trên thế giới IE đƣợc ứng dụng rất nhiều vào việc trích rút thông tin trên Internet nhƣ: lấy thông tin về tên các công ty, tên giám đốc, theo dõi các sự kiện … Ngoài ra IE còn đƣợc ứng dụng vào chăm sóc khách hàng nhƣ trích rút ra các thông tin của khách hàng : họ tên, địa chỉ, 14 số điện thoại, ngày tháng năm sinh của khách hàng, địa chỉ email, số nhà… sau đó lƣu vào trong cơ sở dữ liệu với mục đích để chăm sóc khách hàng tốt hơn.
- Trong những năm gần đây IE đặc biệt chú trọng và quan tâm trong lĩnh vực y học vì vậy đã có khá nhiều nghiên cứu đƣợc tiến hành nhằm ứng dụng IE vào việc trích rút thông tin các thực thể trong lĩnh vực ngành y nhƣ tên protein và gene.
- Các công cụ trích rút thông tin tự động từ các trang website nhƣ hệ thống trích rút mối quan hệ giữa các thực thể là rất cần thiết.
- Bài toán trích rút thông tin từ văn bản có thể đƣợc phát biểu nhƣ sau.
- Đầu vào: Dữ liệu văn bản bất kỳ + Đầu ra: Thông tin dƣới dạng có cấu trúc 2.2 Trích rút sự kiện Trích rút sự kiện với mục đích là trích rút ra các thông tin có ý nghĩa từ tập dữ liệu bán cấu trúc hay phi cấu trúc và đƣợc đông đảo cộng đồng các nhà khoa học rất quan tâm và đầu tƣ nghiên cứu.
- Chính vì vậy khái niệm sự kiện lần đầu tiên đƣợc tổ chức vào năm 1987 Message Understanding Conferences (MUC) với sự hỗ trợ của Quỹ nghiên cứu của Bộ quốc phòng Hoa Kỳ.
- Tại mỗi hội nghị thì thông tin cũng đƣợc quan tâm khác nhau nhƣng đều có đặc điểm chung là chúng đƣợc trích rút từ dữ liệu nói về khủng hoảng.
- Các chủ đề trong dữ liệu thƣờng là khủng bố, tội phạm, đánh bom và tại hội nghị này MUC đã đƣa ra đƣợc trích rút thông tin dựa trên mẫu đó là một đóng góp lớn.
- Các mẫu này đƣợc ban tổ chức quy định vì vậy các đội tham gia cần điền thông tin vào các mẫu này một cách tự động.
- Kết quả các sự kiện đƣợc trích rút gồm các thông tin: ngƣời, sự việc, sự vật, tổ chức, thời gian, địa chỉ, số lƣợng…Độ chính xác (precision) nằm trong khoảng từ 60% đến 70% và hồi tƣởng (recall) từ 40% đến 50% [2]của các nghiên cứu tham dự MUC.
- Trích rút nội dung tự động Automatic Content Extraction (ACE) của đại học Pennsylvania đƣợc viết chủ yếu bằng các ngôn ngữ nhƣ: tiếng Anh, Trung Quốc, Ả rập.
- Các thông tin đƣợc trích rút gồm các thực thể, quan hệ giữa các thực thể, và các sự kiện tham gia vào.
- Qua đó có thể thấy rằng trích rút sự kiện nói riêng và trích rút thông tin nói chung.
- 2.2.1 Định nghĩa sự kiện Trích rút sự kiện đƣợc giới thiệu lần đầu tiên vào năm 1987 Message Understanding Conference (MUC) [2] nó đánh dấu một bƣớc tiến trong trích rút sự kiện.
- Khi đó một sự kiện đƣợc định nghĩa nhƣ sau: “một sự kiện có tác nhân, thời gian, địa chỉ và tác động tới môi trƣờng xung quanh”.
- Còn theo Doddington George và các cộng sự trong một chƣơng trình Automatic Content Extraction (ACE) cũng đã đƣa ra định nghĩa về sự kiện nhƣ sau: “một sự kiện là một hành động đƣợc tạo bởi những ngƣời tham gia”[4].
- Trong chƣơng trình ACE đã chia sự kiện ra thành các loại sau: tác nhân, đối tƣợng, nguồn gốc, mục tiêu.
- Qua các nghiên cứu của các nhà khoa học có thể thấy rằng các nghiên cứu đều đồng ý sự kiện có thể coi nhƣ một mẫu gồm nhiều các thuộc tính.
- Quá trình trích rút sự kiện quan tâm làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc tƣơng ứng cho từng thuộc tính của nó.
- 2.2.2 Bài toán trích rút sự kiện Trích rút sự kiện (Event Extraction - EE) là một lĩnh vực con của trích rút thông tin.
- Nếu nhƣ trích rút thông tin chỉ quan tâm các dữ liệu rời rạc (tên ngƣời, địa chỉ, cơ quan, số điện thoại.
- thì trích rút sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện.
- Từ đó, ngƣời đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa.
- Trích rút sự kiện từ văn bản nhận đầu vào là các văn bản phi cấu trúc hoặc văn bản bán cấu trúc đầu ra nó đƣợc biểu diễn dƣới dạng thông tin có cấu trúc.
- Trích rút sự kiện có thể áp dụng cho một miền dữ liệu cụ thể nhƣ hội thảo khao học, 16 thông tin các tour du lịch, làm cha mẹ, họp hội đồng hƣơng, tai nạn giao thông, các cuộc mitting biểu tình, các sự kiện cho quảng cáo,… các thông tin xung quanh sự kiện thƣờng bao gồm: Thời gian, địa chỉ, tên sự kiện, số lƣợng ngƣời tham gia, thành phần tham gia.
- Còn theo Grishman và cộng sự, trích rút sự kiện là một bài toán khó vì phải xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trƣng dữ liệu [2].
- Điều này dễ ràng nhận thấy trích rút sự kiện phụ thuộc nhiều vào ngôn ngữ tự nhiên mà cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER).
- Đồng thời, dữ liệu đầu vào của trích rút sự kiện rất đa dạng, phong phú do đó sẽ ảnh hƣởng tới tính hiệu quả của trong quá trình trích rút.
- Bài toán trích rút sự kiện nhiệm vụ của nó là: làm thế nào để trích rút các thuộc tính của một sự kiện.
- Để giải quyết vấn đề này thì hiện nay có nhiều phƣơng pháp trích rút ra thuộc tính của sự kiện, trong đó phải kể đến phƣơng pháp sử dụng luật phƣơng pháp tập luật đƣợc sử dụng từ rất sớm ngày nay nó vẫn đang tiếp tục đƣợc phát triển để giải quyết bài toán này[3].
- Quá trình trích rút bằng phƣơng pháp này thƣờng đƣợc sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện.
- 2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt Trong những năm gần đây trích rút sự kiện đã thu hút đƣợc nhiều sự quan tâm của nhiều nhà khoa học.
- Đây là bƣớc đi tốt cho việc khai thác tri thức trong văn bản.
- Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt: Thời gian( giờ phút ngày tháng năm), địa chỉ diễn ra hội thảo ở đâu? tên hội thảo là gì? Kết quả của trích rút ra đƣợc đƣa vào trong cơ sở dữ liệu và đƣa lên trang web để thông báo, khai thác các sự kiện hội thảo diễn ra.
- Đầu vào: Là các văn bản hội thảo khoa học (văn bản phi cấu trúc hoặc bán cấu trúc) Đầu ra: Trích rút ra các thông tin sự kiện hội thảo(tên hội thảo, thời gian, địa chỉ)

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt