« Home « Kết quả tìm kiếm

Trích rút sự kiện từ mạng xã hội facebook Việt


Tóm tắt Xem thử

- Làm rõ bài toán, bổ sung tài liệu tham khảo phần định nghĩa sự kiện.
- Sửa tên module “Tóm tắt sự kiện” thành “Gom nhóm sự kiện.
- Bài toán trích rút sự kiện từ mạng xã hội Facebook.
- Trích rút sự kiện tiếng Việt.
- 19 Hình 5: Thuật toán phân cụm tin tức thành sự kiện.
- 25 Hình 6: Mô hình phát hiện sự kiện của nhóm Tanev và cộng sự.
- 25 Hình 7: Các mỗi quan hệ và sự kiện trong nghiên cứu của Aone.
- 28 Hình 9: Mô hình trích rút sự kiện dựa vào mẫu cứ pháp và luật ngữ nghĩa.
- 30 Hình 10: Mô hình hệ thống trích rút sự kiện trong nghiên cứu của Li-Fang.
- 31 Hình 11: Mô hình trích rút sự kiện sử dụng ontology-based fuzzy.
- 33 Hình 12: Mô hình trích rút sự kiện từ Facebook.
- 55 Hình 25: Thuật toán trích rút sự kiện.
- 58 Hình 26: Thuật toán kết hợp 2 sự kiện.
- 61 Hình 27: Hộp thoại hiển thị tin tức đầy đủ của sự kiện.
- 63 9 DANH MỤC BẢNG BIỂU Bảng 1: Bảng so sánh ưu nhược điểm của phương pháp trích rút sự kiện dựa vào luật và học máy.
- về các tin tức, các sự kiện trong cuộc sống trên hàng trăm các mạng xã hội khác nhau.
- Vì vậy, việc nghiên cứu trích rút sự kiện từ mạng xã hội hết sức có ý nghĩa trong thực tiễn.
- Trong thời gian qua đã có rất nhiều các công trình nghiên cứu về khai thác sự kiện trong nhiều lĩnh vực trong đó có cả các mạng xã hội.
- Vì vậy, tác giả đã chọn nghiên cứu đề tài “Trích rút sự kiện từ mạng xã hội Facebook Việt”, phần nào gợi mở phương hướng nghiên cứu sâu hơn trong lĩnh vực này.
- Mô hình hóa bài toán “Trích rút sự kiện từ mạng xã hội Facebook Việt” và đề xuất phương án giải quyết bài toán từ các bước trích xuất dữ liệu từ Facebook đến bước đưa ra các sự kiện đã được trích rút - Đánh giá phương pháp giải quyết bài toán thông qua ứng dụng thực nghiệm.
- Nội dung cơ bản Nội dung của Luận văn là nghiên cứu các phương pháp khai thác sự kiện cùng với các phương pháp xử lý văn bản tiếng Việt, đề xuất mô hình giải quyết bài toán “Trích rút sự kiện từ mạng xã hội Facebook Việt” nhằm phát hiện và gom nhóm sự kiện từ nguồn dữ liệu là các thông điệp (message) trên mạng xã hội Facebook, đưa ra các sự kiện đang được cộng đồng quan tâm, mang tính thời sự.
- Tập trung vào các phần xử lý ngôn ngữ tiếng Việt có những đặc điểm đặc trưng trích xuất từ Facebook và trình bày các thuật toán phát hiện và gom nhóm sự kiện.
- Chương 1: Trình bày khái quát mang lại cái nhìn tổng quan về mạng xã hội Facebook và bài toán trích rút sự kiện từ mạng xã hội Facebook.
- Chương 2: Trình bày tổng quan các nghiên cứu liên quan đến bài toán trích rút sự kiện nói chung và bài toán trích rút sự kiện tiếng Việt nói riêng, từ đó đưa ra nhận xét đánh giá và đề xuất phương pháp áp dụng cho bài toán trích rút sự kiện từ mạng xã hội Facebook.
- Chương 3: Đề xuất mô hình giải quyết bài toán trích rút sự kiện từ mạng xã hội Facebook, lựa chọn công cụ phù hợp và xây dựng các thuật toán để giải quyết bài toán trích rút sự kiện từ mạng xã hội Facebook tiếng Việt.
- Bài toán trích rút sự kiện từ mạng xã hội Facebook Bài toán trích rút sự kiện từ mạng xã hội Facebook có thể phát biểu như sau: 1.2.1.
- Đầu ra: Các thông tin về sự kiện (chủ thể, hành động, đối tượng , địa điểm, thời gian .
- Xử lý dữ liệu Quá trình này xử lý dữ liệu thu được ở quá trình trước để trích rút ra các thành phần phản ánh sự kiện.
- Về mặt khoa học: Trích rút sự kiện (Event Extraction) là một trong các bài toán cơ bản của trích chọn thông tin, là nội dung cụ thể của bài toán trích rút thực thể.
- Một số các phương pháp để khai thác sự kiện có thể kể đến là: trích rút sự kiện dựa trên học máy (Data-Driven Event Extraction), trích rút sự kiện dựa trên luật (Knowledge-Driven Event Extraction), trích rút sự kiện tích hợp (Hybrid Event Extraction).
- Tuy nhiên việc khai thác sự kiện từ mạng xã hội, đặc biệt là từ mạng xã hội lớn nhất thế giới là Facebook thì chưa có nhiều nghiên cứu cụ thể.
- Khó khăn và thách thức Mặc dù đã có nhiều nghiên cứu về lĩnh vực trích rút sự kiện và đã đạt được một số kết quả nhất định.
- Đối với nội dung trên mạng xã hội, chủ yếu các công trình trích rút sự kiện từ Twitter, với đặc trung là các đoạn hội thoại ngắn (dưới 140 ký tự).
- Vì vậy, việc lựa chọn đề tài trích rút sự kiện từ Facebook tiếng Việt đặt ra nhiều khó khăn thách thức như phải xây dựng mô hình riêng để xử lý các thông tin lấy về từ Facebook (ngôn ngữ không chuẩn ngữ pháp), xây dựng từ điển chuẩn hóa, sửa lỗi chính tả, xử lý ngôn ngữ tiếng Việt.
- Ở chương tiếp theo, tác giả sẽ trình bày một số những nghiên cứu liên quan đến bài toán trích rút sự kiện, qua đó so sánh những hướng tiếp cận đang được nghiên cứu và lựa chọn hướng tiếp cận cho bài toán trích rút sự kiện từ Facebook Việt.
- 24 Chương 2: Các nghiên cứu liên quan Trích rút sự kiện (Event Extraction) là một trong các bài toán cơ bản của trích chọn thông tin.
- Trong thời gian qua đã có rất nhiều các công trình nghiên cứu về khai thác sự kiện.
- Các công trình này chủ yếu nghiên cứu theo 3 hướng: trích rút sự kiện dựa vào học máy (Data-Driven Event Extraction), trích rút sự kiện dựa vào luật (Knowledge-Driven Event Extraction), trích rút sự kiện tích hợp (Hybrid Event Extraction) 2.1.
- Các nghiên cứu dựa vào học máy Phương pháp trích rút sự kiện dựa vào học máy là phương pháp thông qua các số liệu thống kê, học máy, đại số tuyến tính.
- Phương pháp trích rút sự kiện dựa vào học máy đòi hỏi thực hiện trên tập dữ liệu lớn để huấn luyện dựa trên các thuật toán học máy.
- Các tác giả sử dụng cách tự động gắn thẻ cho các từ và thiết kế 1 framework để tự học từ các sự kiện được phát hiện.
- Các nghiên cứu dựa vào luật Phương pháp trích rút sự kiện dựa vào luật là phương pháp sử dụng kiến thức chuyên gia để khai thác sự kiện.
- Trong một số trường hợp biểu thức chính quy được biểu diễn đơn giản dưới dạng những từ khoá, các luật cú pháp được sử dụng trong các trích chọn sự kiện.
- Trong nghiên cứu của mình, Chinatsu Aone và Mila Ramos-Santacruz đã sử dụng mô hình mối quan hệ và sự kiện để khai thác các sự kiện liên quan đến lĩnh vực tài chính và chính trị [2].
- Module EventTagger sử dụng kết quả của NPTagger để phát hiện sự kiện bằng cách áp dụng các mẫu chung chung dựa trên cú pháp.
- Sau khi gán nhãn, hệ thống tiếp tục xử lý tăng độ chính xác của việc trích rút và trộn các sự kiện tương đồng sau đó hiển thị dưới giao diện đồ họa cho người dung.
- Một nghiên cứu khác, Hung và cộng sự đã xây dựng một framework khai thác sự kiện từ các website dựa vào kiến thức thường thức mẫu cú pháp và luật ngữ nghĩa [14].
- 30 Hình 9: Mô hình trích rút sự kiện dựa vào mẫu cứ pháp và luật ngữ nghĩa Mô hình trên mô tả các làm việc của framework.
- Kiến trúc của hệ thống thí nghiệm được mô tả như sau: Hình 10: Mô hình hệ thống trích rút sự kiện trong nghiên cứu của Li-Fang Hệ thống gồm 3 thành phần.
- Domain model: Domain model cung cấp các thông tin ngữ nghĩa cho quá trình khám phá sự kiện.
- Đây là phương pháp thường được sử dụng trong các bài toán trích rút sự kiện.
- Cuối cùng SA sẽ xử lý và tóm tắt e-News tương ứng đưa ra sự kiện.
- [13] Nhờ hiệu quả cao, phương pháp tích hợp đang trở thành phương pháp được sử dụng nhiều nhất trong trích rút sự kiện.
- So sánh và đánh giá các phương pháp Trong quá trình nghiên cứu, có thể thấy mỗi phương pháp trích rút sự kiện đều có những ưu điểm và hạn chế nhất định.
- Với các biểu thức đủ tốt có thể trích chọn được các thành phần sự kiện dựa trên cú pháp, từ vựng và các hành phần ngữ nghĩa.
- Bảng 1: Bảng so sánh ưu nhược điểm của phương pháp trích rút sự kiện dựa vào luật và học máy 35 Trong thực tế, các hệ thống tri thức (knowledge systems) thường có sự kết hợp giữa các phương pháp sử dụng luật và dữ liệu.
- Do đó có thể nói, phương pháp tích hợp là phương pháp thích hợp nhất cho bài toán trích rút sự kiện từ văn bản.
- Trích rút sự kiện tiếng Việt Đối với ngôn ngữ Tiếng Việt, do đặc trưng về ngữ pháp rất phức tạp nên việc xử lý ngôn ngữ Tiếng Việt gặp rất nhiều khó khăn.
- Bài toán trích rút sự kiện cũng không phải là ngoại lệ.
- Trong nghiên cứu này, nhóm tác giả đã đề xuất phương pháp kết hợp mẫu ngữ nghĩa (lexico – semantic) và học máy (Maximum Entropy) để trích rút sự kiện từ các trang báo tin tức tiếng Việt tập trung vào các sự kiện hỏa hoạn, tội phạm và tai nạn giao thông.
- Kết luận chương Trong chương 2, tác giả đã trình bày tóm tắt một số các công trình nghiên cứu của các nhà khoa học trên thế giới liên quan đến bài toán trích rút sự kiện và bài toán xử lý ngôn ngữ tự nhiên tiếng Việt.
- Trong chương 3, tác giả sẽ trình bày cụ thể mô hình và lựa chọn phương pháp giải quyết bài toán bài toán trích rút sự kiện từ Facebook Việt.
- Đề xuất mô hình giải quyết bài toán Trong chương 2, tác giả đã trình bày các nghiên cứu liên quan đến trích rút sự kiện trong đó có nêu rõ phương pháp tích hợp là phương pháp thích hợp cho các bài toán khai thác sự kiện.
- Vì vậy, tác giả lựa chọn phương pháp tích hợp (học máy kết hợp luật) để giải quyết bài toán trích rút sự kiện từ Facebook Việt.
- o Trích rút sự kiện: Sự kiện được rút ra từ những thực thể và cụm từ đã được gán nhãn.
- o Gom nhóm sự kiện: Gộp các sự kiện nói về cùng 1 vấn đề.
- o Hiển thị: Hiển thị sự kiện theo thứ tự giảm dần về độ quan tâm 3.3.
- o Dựa vào các thông tin phân cụm và nhãn thực thể, mỗi thông điệp sẽ được trích rút các sự kiện và lưu vào danh sách.
- o Từ danh sách các sự kiện, hệ thống gộp các sự kiện nói về cùng 1 vấn đề.
- o Cuối cùng, các sự kiện trích rút được sẽ hiển thị theo thứ tự giảm dần độ quan tâm và theo từng chủ đề.
- Chính vì vậy, tác giả lựa chọn phương pháp này cho khâu phân cụm từ của bài toán trích rút sự kiện từ Facebook tiếng Việt.
- Trích rút sự kiện Trích rút sự kiện là bước quan trọng nhất cũng là bước cuối cùng của việc trích xuất thông tin.
- Location: vị trí xảy ra sự kiện.
- Time: thời gian xảy ra sự kiện.
- 56 Sau quá trình Chunking và NER, dữ liệu được gán nhãn theo cụm cú pháp và các thực thể, làm đầu vào cho quá trình trích rút sự kiện.
- Từ những nhận xét đó, tác giả để xuất thuật toán trích rút sự kiện như sau: 58 Đầu vào: Văn bản đã được phân cụm và gán nhãn thực thể.
- Đầu ra: các sự kiện.
- Lưu sự kiện vào danh sách sự kiện 9.
- Kết thúc: Trả về danh sách các sự kiện (subject, action, object, location, time) Hình 25: Thuật toán trích rút sự kiện 59 Ví dụ với câu: “Nhãn hàng thời trang H&M tặng 1000 túi thời trang tại Hồ Chí Minh vào ngày khai trương.
- Vì vậy, tác giả đề xuất thuật toán kết hợp các sự kiện để tránh sự trùng lặp và tăng cường thông tin cho các sự kiện.
- Để kết hợp các sự kiện, tác giả sử dụng 1 từ điển các động từ đồng nghĩa để tìm kiếm các sự kiện trùng nhau.
- 61 Thuật toán kết hợp các sự kiện của các message khác nhau Đầu vào: 2 danh sách các sự kiện của 2 message.
- Đầu ra: Danh sách kết hợp 2 danh sách nếu 2 message cùng nói về 1 sự kiện.
- So sánh sự kiện cha của 2 danh sách.
- 63 Hiển thị theo nhóm: Nhằm mục đích thuận lợi cho người dùng, tác giả xây dựng chức năng hiển thị các sự kiện theo chủ đề.
- Các sự kiện trích rút thuộc chủ đề người dùng chọn sẽ hiển thị trong khung giao diện người dùng.
- Nội dung hiển thị Các sự kiện sau khi được trích rút sẽ được hiển thị dưới dạng cây với các thông tin bắt buộc gồm: Subject, Action và các thông tin Object, Time, Location nếu có.
- Hình 27: Hộp thoại hiển thị tin tức đầy đủ của sự kiện 3.5.
- Kết luận chương Trong chương 3 tác giả đã trình bày mô hình và đề xuất phương pháp giải quyết bài toán “Trích rút sự kiện từ Facebook Việt”.
- Các gói chương trình: Tác giả xây dựng 4 gói chương trình để trích xuất sự kiện từ Facebook Việt.
- Split-sentences.py: tách câu trong văn bản - Event-Extraction.py: Xử lý, trích rút và hiển thị sự kiện 4.2.
- Vùng 4: Nhóm thao tác trích rút sự kiện gồm: o Category: chọn chủ đề cần trích xuất o Extract Event: trích xuất sự kiện 4.3.2.
- Các hạn chế của phương pháp Sau quá trình nghiên cứu, cài đặt và thử nghiệm, phương pháp trích rút sự kiện từ mạng xã hội Facebook mà tác giả đề xuất mang lại kết quả đáng khích lệ.
- Tối ưu hóa các thuật toán trích rút và tóm tắt sự kiện - Tối ưu lại các bộ từ điển, tạo index để nâng cao hiệu quả tìm kiếm.
- Về nội dung trích rút: Về cơ bản, thuật toán trích rút đã bao hàm được phần lớn các trường hợp ngữ pháp trong tiếng Việt để trích rút sự kiện.
- Tuy nhiên, trong một số trường hợp, hệ thống chưa xác định được đúng và đưa ra sự kiện sai.
- Sự kiện đầu ra.
- Xây dựng bộ dữ liệu chuẩn được gán nhãn sự kiện làm dữ liệu học cho hệ thống.
- Qua đó làm bật lên ý nghĩa của việc khai thác thông tin từ mạng xã hội phục vụ mục đích tìm kiếm, thống kê thông tin, mà cụ thể là ý nghĩa của bài toán trích rút sự kiện.
- Luận văn tập trung vào đề xuất giải pháp trích rút sự kiện từ Facebook tiếng Việt qua các bước

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt