« Home « Kết quả tìm kiếm

Tóm tắt văn bản Tiếng Việt.


Tóm tắt Xem thử

- TTVB Tóm tắt văn bản 2.
- 4 Hình 2: Mô hình chung của tóm tắt văn bản.
- 16 Hình 3: Mô hình trích rút văn bản.
- 17 Hình 4: Mô hình hệ thống tóm tắt văn bản tiếng Việt.
- Khái niệm Tóm tắt văn bản.
- Phân loại bài toán Tóm tắt văn bản.
- Ứng dụng của bài toán Tóm tắt văn bản.
- Đánh giá hệ thống Tóm tắt văn bản.
- Các phương pháp đánh giá hệ thống tóm tắt.
- Một số hệ thống tóm tắt văn bản điển hình.
- Quá trình tóm tắt văn bản.
- Các phương pháp tóm tắt văn bản.
- Mô hình hóa văn bản.
- Tính độ tương đồng giữa 2 câu trong văn bản.
- Sinh câu tóm tắt.
- Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể.
- Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản.
- Nhưng với những khó khăn và thách thức riêng, Tóm tắt văn bản hiện chưa được nghiên cứu nhiều ở Việt Nam.
- Mục đích nghiên cứu - Tìm hiểu cơ sở lý thuyết của Tóm tắt văn bản nói chung và tóm tắt đơn văn bản tiếng Việt nói riêng.
- 2 - Nghiên cứu phương pháp tóm tắt văn bản tiếng Việt.
- Xây dựng hệ thống tóm tắt văn bản tiếng việt.
- Nghiên cứu trong phạm vi đơn văn bản.
- Chương 2: Bài toán tóm tắt đơn văn bản và các phương pháp tóm tắt văn bản Tiếng Việt Trình bày quá trình tóm tắt văn bản, các hướng tiếp cận cho việc giải quyết bài toán tóm tắt đơn văn bản.
- Chương 3: Xây dựng hệ thống tóm tắt trích rút đơn văn bản tiếng Việt Trình bày chi tiết về hệ thống tóm tắt trích rút đơn văn bản tiếng Việt gồm: mô hình hệ thống, các giai đoạn xử lý, cấu trúc chương trình.
- Khái niệm Tóm tắt văn bản Có rất nhiều định nghĩa khác nhau nói về TTVB.
- “Cho một văn bản, tìm tóm tắt chứa các ý chính của văn bản thỏa nhu cầu khai thác văn bản” của Hoàng Kiếm và Đỗ Phúc.
- Sinh tự động chủ đề, tiêu đề, dẫn đường văn bản.
- Ngoài ra, một số module và kết quả của hệ thống cũng là đầu vào hay những bước tiền xử lý cho các bài toán khác của Khai phá văn bản.
- Phân loại bài toán Tóm tắt văn bản Bài toán TTVB được chia thành nhiều loại.
- Tóm tắt đơn văn bản và Tóm tắt đa văn bản: Khi xét đầu vào một hệ thống TTVB, ta có thể chia thành hai dạng là tóm tắt đơn văn bản (Single-Document) hoặc tóm tắt đa văn bản (Multi-Document).
- Tóm tắt đơn văn bản là từ một văn bản nguồn cho ra bản ngắn gọn của văn bản đó.
- Trích rút là quá trình thu gọn văn bản mà trong kết quả ra chứa các đơn vị ngữ liệu văn bản nguồn.
- Văn bản kết quả của quá trình Tóm lược: "Một buổi cuối tuần vui vẻ của gia đình tôi".
- Khi xem xét mô hình chung của một hệ thống Tóm tắt văn bản ta sẽ thấy rõ hơn điều này.
- Kiểu tóm tắt này không gặp trong một hệ tóm tắt văn bản tự động.
- Tóm tắt chung (Generic): Tóm tắt theo quan điểm ban đầu của tác giả văn bản gốc (khách quan.
- Kết quả ra là văn bản ngôn ngữ đó.
- Tóm tắt đa ngôn ngữ: Mỗi văn bản nguồn chỉ có một loại ngôn ngữ.
- Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn.
- Tóm tắt đan xen ngôn ngữ: Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp.
- Ứng dụng của bài toán Tóm tắt văn bản TTVB có rất nhiều ứng dụng thực tế.
- Đánh giá hệ thống Tóm tắt văn bản 1.4.1.
- Độ chính xác - Thể hiện mối quan hệ giữa văn bản kết quả với tập văn bản tóm tắt mẫu.
- Mức độ liên kết - Thể hiện sự liên kết giữa các đơn vị ngữ liệu của văn bản kết quả với nhau.
- Việc tóm tắt còn liên quan tới việc nén kích thước văn bản (giảm số câu, rút gọn từng câu).
- Độ hàm chứa thông tin Độ hàm chứa thông tin phản ánh về lượng thông tin chứa trong nội dung của văn bản kết quả.
- Khi một ứng dụng tóm tắt giản lược văn bản nguồn thì độ hàm chứa thông tin của văn bản kết quả cũng sẽ giảm đi.
- Có hai phương pháp đối sánh và cho điểm: đối sánh giữa văn bản kết quả - văn bản nguồn và đối sánh giữa máy tóm tắt và chuyên gia tóm tắt.
- Độ chính xác (Precision) là số câu chọn ra chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản kết quả.
- Độ hồi tưởng (Recall) là số câu chọn ra chính xác của văn bản kết quả (C) chia cho tổng số câu của văn bản mẫu tóm tắt bằng GS.
- Phương pháp này thường dùng cho các hệ Trích rút văn bản và Tóm tắt chỉ định.
- Phương pháp Hiển thị liên kết Với phương pháp này, ta sẽ đưa thêm các thông tin bổ sung vào văn bản tóm tắt.
- Một phương pháp khác là phương pháp học dựa vào tập mẫu (Corpus) đế xây dựng nên đoạn văn hay văn bản từ các đơn vị ngữ liệu.
- Các phương pháp tóm tắt văn bản Mặc dù có 2 loại tóm tắt là tóm tắt rút trích (extraction) và tóm tắt tóm lược (abstraction), tuy nhiên để thực hiện tóm lược cần có một lượng tri thức đầy đủ về lĩnh vực cần tóm tắt.
- Phương pháp thống kê Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật (các bài báo khoa học).
- o Thử nghiệm với 400 văn bản kỹ thuật và kết quả đạt 44%.
- Cùng với phương pháp tính độ đo TF.IDF là phương pháp biểu diễn văn bản bằng vector không gian sử dụng Vector Space Model (Saton 1975).
- Phương pháp học máy Năm 1990, với sự phát triển của nhiều kỹ thuật máy học trong xử lý ngôn ngữ, một số nhà nghiên cứu đã ứng dụng các kỹ thuật này vào trong tóm tắt văn bản tự động.
- Phương pháp Naïve-Bayes Các hướng tiếp cận theo phương pháp này giả định rằng các đặc trưng của văn bản độc lập nhau.
- o Ngữ liệu: 188 cặp văn bản khoa học và tóm tắt.
- Lin và Hovy đã đề ra phương pháp Optimal Position Policy cho một thể loại văn bản (văn bản tin tức của Ziff-Davis về máy tính và phần cứng).
- Kết luận Ở chương này đã đưa ra một số nghiên cứu liên quan đến tóm tắt văn bản và phương pháp tóm tắt văn bản tiếng Việt.
- Trong chương tiếp theo luận văn sẽ trình bày cụ thể phương pháp tóm tắt văn bản tiếng Việt dựa theo phương pháp thống kê trên TF.ISF tính trọng số câu để đưa ra văn bản tóm tắt.
- Mô hình hệ thống Dựa trên mô hình chung của bài toán TTVB, ta xây dựng mô hình ứng dụng tóm tắt trích rút tự động văn bản tiếng Việt.
- Hình 4: Mô hình hệ thống tóm tắt văn bản tiếng Việt 29 Ứng dụng gồm các giai đoạn sau.
- Kết quả đánh giá của công cụ được cho là ổn định đối với nhiều loại văn bản/ văn phong khác nhau.
- Có thể đễ dàng sửa đổi nâng cấp và tích hợp vào các hệ thống phân tích văn bản tiếng Việt khác.
- Từ dừng (Stop Words): là các từ mang ít ý nghĩa trong xử lý văn bản vì nó xuất hiện trong hầu hết các văn bản.
- Nếu từ nào xuất hiện trong từ điển từ dừng thì ta loại nó ra khỏi văn bản đầu vào.
- Mô hình hóa văn bản Mô hình không gian véc tơ (Vector Space Model - VSM).
- Tính độ tương đồng giữa 2 câu trong văn bản 3.3.1.1.
- Gọi wij là giá trị trọng số của thuật ngữ ti trong văn bản dj.
- Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản [8].
- Phương pháp tính trọng số từ dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency.
- Là phương pháp dựa trên nghịch đảo tần số văn bản.
- Trong phương pháp này trọng số của một từ được tính dựa trên độ quan trọng của từ đó trong văn bản.
- (17) Trong đó m là số lượng văn bản và hi là số văn bản mà thuật ngữ ti xuất hiện.
- Trọng số wij trong công thức này được tính dựa trên độ quan trọng của thuật ngữ ti trong văn bản dj.
- )log()log(log0hmhmwiiijNếu thuật ngữ ti xuất hiện trong tài liệu dj Nếu ngược lại ij ifw f l¹i ng-îc nÕu nÕu10hhmfwijiijij1log)]log([ (18) Ưu điểm của TF là tận dụng được tính thường xuyên của thuật ngữ trong văn bản.
- isfij là ‘inverse sentence frequency’ của từ thứ i trong câu thứ j m là tổng số các câu trong văn bản đầu vào.
- Mục đích của nó là tạo ra TTVB bằng cách xây dựng hệ thống tính trọng số cho mỗi câu của văn bản.
- Các câu quan trọng cũng có thể xuất hiện ở cuối văn bản, nhưng ít hơn so với đầu văn bản.
- Điều này hiển nhiên sẽ giới hạn các lĩnh vực nội dung văn bản mà hệ thống có thể thực hiện.
- Tuy nhiên, cũng phải thừa nhận rằng chính con người khi tóm tắt các văn bản thuộc loại này cũng gặp rất nhiều khó khăn.
- (20) Trong đó: m là số lượng câu trong văn bản.
- Sắp xếp chỉ số các câu được chọn cho văn bản tóm tắt theo thứ tự giảm dần.
- Do thời gian có hạn nên chưa thể đưa ra được một ngưỡng chính xác tổng quát cho bài toán tóm tắt văn bản.
- 41 CHƯƠNG 4: CÀI ĐẶT ỨNG DỤNG Chương trình tóm tắt đơn văn bản được xây dựng trên môi trường .NET bằng ngôn ngữ C#.
- Đây là một ngôn ngữ có khả năng xử lý tốt đối với dữ liệu phẳng, đồng thời nó có hỗ trợ các đối tượng cấu trúc dữ liệu rất hữu ích cho bài toán tóm tắt văn bản.
- Các bước triển khai chương trình Bước 1: Tiền xử lý văn bản tiếng Việt.
- Để phục vụ cho các bước tiếp theo ta tiến hành vector hóa các câu trong văn bản.
- Mỗi câu trong văn bản được biểu diễn dưới dạng một vector.
- Tính độ tương đồng giữa câu trong văn bản.
- Chọn tỉ lệ tóm tắt Chọn văn bản cần tóm tắt Chạy chương trình 43 Hình 6.
- Bởi nó là phương pháp đánh giá phổ biến được sử dụng nhiều cho đánh giá tóm tắt đơn văn bản.
- Các kết quả kiểm thử Thực hiện kiểm thử văn bản mẫu như đã giới thiệu ở trên.
- Thời gian chạy của hệ thống tỷ lệ thuận với độ dài của văn bản đầu vào.
- Khả năng ứng dụng của hệ thống Hệ thống có khả năng thực hiện tóm tắt hiệu quả đối với các văn bản ngắn và trung bình như các bài báo, tin tức trên Internet.
- Khuyến nghị Hệ thống Tóm tắt văn bản tiếng Việt sau khi hoàn thiện và đưa vào hoạt động thực tế có thể hỗ trợ chúng ta rất nhiều trong quá trình tìm kiếm và chắt lọc thông tin.
- Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt