« Home « Kết quả tìm kiếm

Nghiên cứu các cách tiếp cận trong tóm tắt văn bản và thử nghiệm


Tóm tắt Xem thử

- LUẬN VĂN THẠC SĨ KHOA HỌC NGHIÊN CỨU CÁC CÁCH TIẾP CẬN TRONG TÓM TẮT VĂN BẢN VÀ THỬ NGHIỆM NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ:3.04.3898 SAM CHANRATHANY Người hướng dẫn khoa học: TS.
- LÊ THANH HƯƠNG Bộ môn HỆ THỐNG THÔNG TIN – Khoa CNTT – Trường Đại học Bách Khoa Hà Nội.Các kết quả nêu trong luận văn là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác.
- Hà Nội, tháng 04 năm 2008 SAM CHANRATHANY Lời Cảm Ơn Trước hết tôi xin gửi lời cảm ơn đặc biệt nhất tới TS.Lê Thanh Hương, Bộ môn Hệ Thống Thông Tin, Khoa Công Nghệ Thông Tin, Trường Đại Học Bách khoa Hà Nội, Người đã định hướng đề tài và tận tình hướng dẫn chỉ báo tôi trong suốt quá trình thực hiện luận văn cao học này.
- Cuối cùng tôi xin bày tỏ lòng cảm ơn chân thành tới tất cả các bạn bè, các thầy cô giáo, các bạn khoa nghệ thông tin trường đại học Bách khoa Hà Nội đã động viên, tạo điều kiện cho tôi trong suốt thời gian thực hiện luận văn này.
- TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 1.1.
- khái niệm tóm tắt văn bản.
- 10 1.2.phân loại bài toán tóm tắt văn bản.
- Dựa trên nguồn.
- 11 1.2.1.2.Dựa Trên Ngôn Ngữ.
- 13 1.2.2.1.Dựa trên cách sử dụng.
- 13 1.2.2.2.Dựa Trên mục đích tóm tắt.
- Kiểu tóm tắt.
- 15 1.2.4.2.Hướng tiếp cận dựa trên tập ngữ liệu Corpus.
- Hướng tiếp cận dựa trên tri thức.
- Hệ thống tóm tắt văn bản điển hình.
- 19 CHƯƠNG 2.CÁC PHƯƠNG PHÁP ĐÁNH GIÁ TÓM TẮT VĂN BẢN 2.1.Giới thiệu.
- Tính mạch lạc của tóm tắt.
- Độ hàm chứa thông tin của tóm tắt Độ chính xác và độ hồi tưởng Phương pháp xếp hạng câu .
- Phương pháp Lợi ích liên quan Mức độ giống nhau về nội dung .
- So sánh hai phương pháp.
- Hệ thống đánh giá có sẵn hiện này.
- 33 CHƯƠNG 3.CÁC PHƯƠNG PHÁP DÙNG TRONG TÓM TẮT VĂN BẢN 3.1.
- Qúa trình tóm tắt văn bản.
- 43 3.2.Các phương pháp dùng trong các bước tóm tắt.
- 44 3.2.1.Phương pháp xác định chủ đề.
- Phương Pháp dựa trên vị trí.
- Phương Pháp dựa trên từ gợi ý.
- Phương Pháp dựa trên tần số xuất hiện của thuận ngữ.
- Phương Pháp chống lấp tiêu đề và câu truy vấn.
- Phương Pháp mối quan hệ từ vựng.
- Phương Pháp cấu trúc diễn ngôn.
- Lập luận dựa trên cơ sở tri thức.
- Phương Pháp Phù Hợp Biên MMR.
- Phương pháp Ngữ nghĩa tiềm ẩn LSA.
- Trích rút thông tin.
- Phương pháp hiển thị phân đoạn.
- 60 3.3.2.Phương pháp Hiển thị liên kết.
- 61 3.3.3.So sánh 2 phương pháp.
- THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG 4.1.
- Các hệ thống dùng để so sánh.
- 72 44.3.1.Văn bản tham khảo của hệ thống Mead 4.3.1.2.Đánh giá mức độ trích chọn chung.
- 4.3.2.Văn bản SUM-TREE-BANK.
- 87 5DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Tiếng Anh Tiếng Việt DUC Document Understanding Conference Hội nghị về hiểu văn bản LCS Longest common subsequence Dãy con chung dài nhất LSA Latent Sematic Analysis Phân tích ngữ nghĩa tiềm ẩn MMR Maximal Marginal Relevance Phù hợp biên tối đa WLCS Weighted Longest common subsequence Dãy con chung dài nhất dựa trên trọng số RUM Relative Utility Method Phương pháp lợi ích liên quan RST Rhetorical Structure Theory Lý thuyết cấu trúc diễn ngôn SVD Singular Value Decomposition Phân tách giá trị đơn TF Term Frequency Tần số xuất hiện thuận ngữ TF-IDF Term Frequency-inverse document frequency Tân số kết hợp của tf và idf 6DANH MỤC BẢNG TrangHình 2-1 Bảng kết quả đánh giá tóm tắt của ROUGE 39 Hình 4-4 Bảng mức độ trích chọn chung dựa trên độ chính xác và độ hồi tưởng 73 Hình 4-5 Bảng trung bình cộng mức độ trích chọn chung dựa trên độ chính xác và độ hồi tưởng 73 Hình 4-6 Bảng trung bình cộng mức độ trích chọn chung dựa trên Kappa 74 Hình 4-7 Bảng mức độ giống nhau về nội dung cosin của từng văn bản 75 Hình 4-8 Bảng trung bình cộng mức độ giống nhau về nội dung Cosin.
- 77 7DANH MỤC HÌNH TrangHình 3-1 Mô hình chung của tóm tắt văn bản 41 Hình 3-2 Mô hình chung của trích rút văn bản 41 Hình 3-3 Hệ thống tóm tắt dựa trên mối quan hệ từ vựng 46 Hình 3-4 Văn bản dùng để tìm mối quan hệ từ vựng 48 Hình 3-5 Biểu đồ quan hệ từ vựng cho LC3 52 Hình 3-6 Biểu đồ cấu trúc diễn ngôn 53 Hình 4-1 Mô hình hệ thống tóm tắt Swesum 66 Hình 4-2 Giao diện Swesum 67 Hình 4-3 Giao diện đồ hoạ của hệ thống Mead 69 8MỞ ĐẦU.
- Ngày nay, Do sự phát triển mạnh mẽ của mạng máy tính toàn cầu và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản.
- Bên cạnh những ưu điểm không thể phủ nhận, sự quá phong phú và đa dạng của WWW cũng khiến con người phải đối mặt với tình trạng “quá tải thông tin”.
- Mặt khác, trong bối cảnh một xã hội thông tin, nhu cầu nhận thông tin một cách nhanh chóng, chính xác, cũng như nhu cầu thu nhận được các “tri thức” từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết.
- Người sử dụng sẽ rất khó khăn trong việc tìm kiếm thông tin và họ không thể có thời gian đọc tất cả các tài liệu để tìm ra thông tin họ cần.
- Một văn bản tóm tắt sẽ tiết kiệm cho người đọc rất nhiều thời gian và công sức để tìm kiếm thông tin một cách hiệu quả.
- Tóm tắt văn bản là quá trình chắt lọc những thông tin quan trọng nhất từ một nguồn để tạo ra một bản ngắn gọn hơn đáp ứng các nhiệm vụ cụ thể và người dùng cụ thể.
- Tóm tắt văn bản làm nhiệm vụ chọn ra các câu hàm chứa ý chính, các câu quan trọng nên về bản chất nó thuộc lĩnh vực của Khai phá văn bản.
- Trên thế giới đã có rất nhiều các ứng dụng Tóm tắt văn bản, với những mục đích nghiên cứu cũng như thương mại.
- Thực ra khái niệm tóm tắt văn bản đã có từ lâu bắt đầu từ cuối thập niên 50 của thế kỷ 20 và càng ngày càng có nhiều tổ chức tìm hiểu nghiên cứu tạo ra văn bản tóm tắt dựa trên thuận toán khác nhau nhằm để giải quyết cho văn bản tóm tắt càng ngày càng hiệu quả và chính xác hơn.
- Tuy nhiên, làm thế nào để tóm tắt văn bản một cách hiệu quả và dựa trên thuận toán nào là hiệu quả nhất vẫn là một thách thức lớn.
- Và hiện này các nhà nghiên cứu cũng đưa ra nhiều phương pháp đánh giá trên nhiều tiểu chí khác nhau nhằm để đánh giá các thuận toán cũng như hệ thống của họ.
- Ví vậy mục đích của luận văn này nhằm để tìm hiểu cơ sở lý thuyết về tóm tắt văn bản cũng như các thuận toán khác nhau thực hiện trong quá trình tóm 9tắt đã có, các phương pháp đánh giá tóm tắt và đồng thời thực hiện thử nghiệm so sánh về sự khác nhau và tính hiệu quả của các thuận toán đó.
- Nội dung chính của luận văn bao gồm : ¾ Chương 1: Giới thiệu tổng quan về tóm tắt văn bản, các hướng tiếp cận và việc phân loại bài toán.
- ¾ Chương 2: Trình bày chi tiết về các phương pháp đánh giá, và các chi tiểu đánh giá hệ thống tóm tắt văn bản.
- ¾ Chương 3: Trình bày chi tiết các thuận toán, kiến trúc và hoạt động của hệ thống tóm tắt tự động.
- ¾ Chương 4: Thử nghiệm đánh giá mức độ hoạt động các hệ thống và đưa ra kết quả từ những thí nghiệm.
- ¾ Chương 5: Kết luận và đưa ra hướng nghiên cứu tiếp theo 10CHƯƠNG 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN Trong chương này sẽ đề cập đến khái niệm, việc phân loại bàii toán văn bản cũng như các hệ thống tóm tắt có sẵn hiện này.
- 9 Khái niệm tóm tắt văn bản 9 Phân loại bài toán tóm tắt văn bản 9 Các hệ thống có sẵn hiện này 1.1.
- KHÁI NIỆM TÓM TẮT VĂN BẢN Sự quan tâm đến tóm tắt văn bản xuất hiện vào cuối thập niên 50 bởi thư viện tìm kiếm của Mỹ [22].
- Do đó bản tóm tắt được lưu trữ, đánh chỉ số, và tạo ra việc tìm kiếm hiệu quả.
- Có lúc bài báo hoặc sách đã hoàn toàn có bản tóm tắt gắn liên với chúng, nhưng trường hợp không có thì ta cần tạo cho chúng.
- Do đó công nghệ tóm tắt đã bắt đầu phát triển ( Luhn 1958, Edmundson 1969, Salton 1988) và trong năm gần đây, với sự tăng lên việc sử dụng internet làm cho kỹ thuật tóm tắt càng được quan tâm hơn.Từ khi kho dữ liệu internet phát triển nhanh chống và càng ngày càng rộng lớn.
- Việc truy cập vào kho dữ liệu internet khổng lồ và phong phú lại là nhược điểm cho việc tìm kiếm những thông tin mà chúng ta cần đến bởi chúng quá nhiều và không thống nhất về định dạng lưu trữ và hiển thị.
- Kể cả khi đã lấy được những thông tin đó thông qua các hệ thống phân loại, tìm kiếm thì cũng không thể nắm bắt 11toàn bộ vì thời gian có hạn mà số lượng thông tin trả về quá lớn.
- Đấy là chưa kể đến việc những thông tin này liệu đã chính xác như mong muốn hay chưa, liệu có nên bỏ thời gian để đọc chúng? Một hệ thống Tóm tắt văn bản sẽ giúp chúng ta giải quyết phần lớn các nhu cầu vừa nêu.
- Hệ thống sẽ giúp chúng ta đọc nhanh hơn, nắm bắt những tri thức cần thiết trong một tài liệu khoa học hàng trăm trang bằng cách tóm lược tài liệu đó lại thành một đoạn văn bản vài ba chục trang.
- Những văn bản tìm thấy từ internet, ta nhờ hệ thống quyết định liệu nên đọc văn bản nào để có đúng thông tin ta cần.
- Những tóm lược ngắn gọn các công việc mà cô thư ký đưa, những bản giới thiệu nội dung phim truyện tuần tới, những bức email thương mại chỉ vài dòng.Đó là những khả năng mà một hệ thống Tóm tắt văn bản có thể mang lại.
- Vậy tóm tắt văn bản là gì ? Tóm tắt văn là kỹ thuật mà máy tính tự động tạo ra bản tóm tắt của một hay nhiều văn bản hoặc nói cách khác “tóm tắt văn bản là quá trình rút gọn hóa thông tin để đưa ra các thông tin quan trọng nhất trong văn bản”.
- 1.2.PHÂN LOẠI BÀI TOÁN TÓM TẮT VĂN BẢN Tóm tắt văn bản có thể chia thành nhiều loại, Mỗi loại được sử dụng cho mục đích khác nhau, cho các yêu cầu khác nhau.
- Mỗi bài toán cũng phải áp dụng phương pháp và kỹ thuật riêng và có điểm mạnh và điểm yếu riêng.
- Bài toán tóm tắt được nhà nghiên cứu phân thành các loại sau [7]: 1.2.1.
- Dựa trên nguồn  Đơn Tài liệu ( single document ) Tóm tắt đơn tài liệu có đầu vào chỉ là một tài liệu riêng lẻ, từ tài liệu này hệ thống tóm tắt tạo ra được một tóm tắt ngắn gọn, xúc tích giúp chúng ta hiểu được 12nội dung của tài liệu.
- Đây là phương pháp tóm tắt đơn giản vì các câu, các đoạn cùng nằm trên cùng một tài liệu, thuận lợi cho việc tìm kiếm các phần của văn bản để tạo ra tóm tắt.
- Mặt khác, các câu, các đoạn đều là những mô tả chi tiết về một chủ đề chung nên chúng ta cũng dễ dàng đưa ra được nội dung chính của tài liệu.
- Đa Tài liệu ( Multi-Đocument) Nội dung của các tập tài liệu này thì vô cùng phong phú, có những tài liệu có nội dung giống nhau, có những tài liệu lại có nội dung khác nhau.
- Tóm tắt đa tài liệu sẽ chứa các thông tin chung giữa các tất cả các tài liệu, cộng thêm với các thông tin khác của một vài tài liệu riêng biệt mà phù hợp trực tiếp với truy vấn của người sử dụng.
- Để tạo ra một tóm tắt đa tài liệu là khó hơn tóm tắt đơn tài liệu.
- Vì các tài liệu có liên quan với nhau bởi được lấy ra từ một truy vấn chung, chúng có khả năng chứa nội dung tương tự.
- Một hệ thống không thể đơn giản nối nhiều các tóm tắt đơn tài liệu với nhau để tạo thành một tóm tắt đa tài liệu vì sự lặp lại các điểm quan trọng sẽ là kết quả của tóm tắt đa tài liệu.
- Nếu một hệ thống tóm tắt văn bản tự động là một hệ thống tìm kiếm thông tin hữu ích thì điều kiện tiên quyết là hệ thống đó có thể vận dụng được sự lặp lại nội dung trong các tài liệu khác nhau.
- 1.2.1.2.Dựa Trên Ngôn Ngữ  Đơn ngôn ngữ Văn bản nguồn chỉ có một loại ngôn ngữ.
- Kết quả ra là văn bản ngôn ngữ đó.
- Đa ngôn ngữ Mỗi văn bản nguồn chỉ có một loại ngôn ngữ.
- Nhưng ứng dụng có khả năng tóm tắt trên nhiều loại ngôn ngữ.
- Tùy vào văn bản nguồn hoặc tham số đưa vào mà hệ thống tóm tắt trên một ngôn ngữ được chọn.
- 13 Đan xen ngôn ngữ Trong văn bản nguồn chứa hai hay nhiều ngôn ngữ khác nhau, hệ thống có thể tùy vào từng đơn vị ngữ liệu mà nhận dạng và tóm tắt cho phù hợp.
- Đây là loại tóm tắt phức tạp nhất trong ba loại phân chia theo số lượng ngôn ngữ 1.2.2.Phân Loại Theo Mục Đích 1.2.2.1.Dựa trên cách sử dụng  Tóm Tắt chỉ dẫn ( indicative summary ) Mục đích chính của tóm tắt này là đoán nội dung của tài liệu mà không quan tâm đến mức chỉ tiết của nó.
- Vì thế, một tóm tắt chỉ dẫn giúp người sử dụng quyết định nên đọc tài liệu nguồn hay không.
- Bìa tài liệu (book jacket.
- bảng chỉ mục (card catalog entries ) và đoạn giới thiệu phim (movie trailer ) là các ví dụ về các tóm tắt chỉ dẫn.
- Tóm Tắt cung cấp thông tin (informative summary ) Ngược lại, tóm tắt cung cấp thông tin bao gồm tất cả các thông tin chính trong tài liệu nguồn ở một mức độ chi tiết nào đó.
- Nó cũng phản ánh nội dung ngữ nghĩa của văn bản đưa vào ở một mức độ nhất định.
- 1.2.2.2.Dựa Trên mục đích tóm tắt  Tóm tắt chung chung (generic summary ) Tóm tắt chung chung là tóm tắt cung cấp cho chúng ta một cái nhìn khái quát nhất về toàn bộ tài liệu văn bản.
- Tóm tắt dựa trên truy vấn ( query-based summary ) Một tóm tắt văn bản phù hợp truy vấn phải chứa các thông tin phù hợp với mục đích tìm kiếm của người sử dụng, cũng như loại trừ các thông tin dưa thừa và không phù hợp.
- Với một tài liệu d và một truy vấn q, hệ thống tóm tắt phù hợp

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt