« Home « Kết quả tìm kiếm

Tóm tắt văn bản Tiếng Việt theo chủ đề


Tóm tắt Xem thử

- ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 1 LỜI CẢM ƠN Em xin chân thành gửi lời cảm ơn chân thành và sâu sắc nhất tới cô giáo TS.
- Học viên: Hoàng Đức Đông Lớp: Cao học Hà Nội 11/2008 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 2 LỜI NÓI ĐẦU Trong những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin đã làm tăng đáng kể số lượng giao dịch trên mạng Internet đặc biệt là thư viện điện tử, tờ báo điện tử…Theo thống kê từ Broder năm 2003 cho thấy số lượng văn bản tăng gấp đôi sau 9 đến 12 tháng.
- Để giải quyết vấn đề đó, người viết luận văn xin đề xuất giải pháp “Tóm tắt văn bản tiếng Việt theo chủ đề”.
- Mục đích của đề tài là trích rút nội dung chính của các văn bản tiếng Việt lại, hiển thị cho người đọc từ đó người sử dụng xem xét nội dung đó có cần đọc không? Nếu có người sử dụng tiến hành đọc chi tiết văn bản gốc, nếu không người sử dụng dừng lại, không cần phải đọc nữa.
- Hướng tiếp cận của người viết luận văn hướng đến các lĩnh vực trong nội dung văn bản cần tóm tắt.
- Các lĩnh vực này chính là cấu trúc về nội dung của các tờ báo điện tử, thư viện điện tử,… Người viết luận văn sử dụng các thành quả đạt về xử lý văn bản tiếng Việt như bài toán phân tách từ, bài toán phân nhóm, phân lớp văn bản, bài toán tóm tắt văn bản.
- Trình bày về nhiệm vụ của đồ án, về các cơ sở lý thuyết của lĩnh vực khai phá dữ liệu văn bản và xử lý ngôn ngữ tự nhiên.
- Đó là các lý thuyết chung về khai phá dữ liệu văn bản, mối liên quan giữa xử lý ngôn ngữ tự nhiên với khai phá dữ liệu văn bản.
- Đặc biệt người viết luận văn có đi sâu phân tích đặc điểm ngôn ngữ tiếng Việt.
- ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 3 Chương 2.
- Trình bầy về thành tựu đạt được về các bài toán liên quan tới phân nhóm văn bản.
- Trình bầy về mô hình, giải pháp cho bài toán phân lớp văn bản.
- Trình bầy về vấn đề nghiên cứu, phân lớp văn bản tiếng Việt, giới thiệu về bài toán tóm tắt văn bản tiêng Việt theo chủ đề.
- Từ đó đưa ra bài toán phân lớp văn bản, tìm chủ đề văn bản phục vụ cho bài toán tóm tắt văn bản tiếng Việt theo chủ đề mà người viết luận văn đề xuất.
- Trình bầy giải pháp tiếp cận phân lớp văn bản tìm chủ đề Chương 6.
- Trình bầy tổng quan thiết kế hệ thống tóm tắt văn bản tiếng Việt theo chủ đề.
- Và đi sâu vào nhiệm vụ phân lớp văn bản tìm chủ đề của luận văn này.
- ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 4 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Giải nghĩa 1.
- KDD Knowledge Discovery in Databases Phát hiện tri thức trong cơ sở dữ liệu 2.
- CSDL Cơ sở dữ liệu 9.
- HMM Hidden Markov Model ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 5 STT Từ viết tắt Giải nghĩa Mô hình Markov ẩn 12 LRMM Left Right Maximum Matching Tách từ dài nhất từ trái qua phải ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 6 DANH MỤC HÌNH VẼ Hình 1.1.
- Tiến trình khai phá dữ liệu và phát hiện tri thức (KDD.
- Chức năng dẫn đường văn bản trong VNExpress.
- Ví dụ biểu diễn văn bản dựa trên khái niệm mờ.
- Minh họa việc khoanh vùng k văn bản gần nhất với k = 5.
- Thuật toán tách term tiếng Việt.
- Phân nhóm các lớp văn bản mẫu với thuật toán FIHC.
- Các chức năng hệ thống tóm tắt.
- Sơ đồ hệ thống tóm tắt.
- Chức năng phân lớp văn bản theo hướng tiếp cận học không giám sát.
- Mô hình bộ vector hóa văn bản.
- Chức năng phân nhóm các lớp văn bản mẫu.
- Chức năng Quản lý tập văn bản mẫu.
- 97 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 7 DANH MỤC BẢNG Bảng 1.1.
- Ví dụ về văn bản biểu diễn theo từ khóa và số lần xuất hiện.
- Dữ liệu đầu vào để xây dựng cây FP.
- Thông tin mô tả một số thông số của các tập dữ liệu huấn luyện.
- Kết quả phân lớp 80 văn bản trên tập mẫu VnExpress.
- Kết quả phân lớp văn bản trên tập mẫu VietNamNet.
- 101 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 8 MỤC LỤC LỜI CẢM ƠN.
- Khai phá dữ liệu và phát hiện tri thức trong dữ liệu.
- Khai phá dữ liệu và phát hiện tri thức.
- Các khái niệm cơ bản trong xử lý văn bản.
- 21 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 9 1.4.4.
- Độ liên quan giữa các văn bản.
- Các bài toán cơ bản trong xử lý văn bản.
- 22 1.5.1.Tìm kiếm văn bản (Text Retrieval.
- Phân lớp văn bản (Text Categorization, Text Classification.
- Phân nhóm văn bản (Text Clustering.
- Tóm tắt văn bản (Text Summarization.
- Dẫn đường văn bản (Text Routing.
- Các phương pháp biểu diễn văn bản.
- Phương pháp biểu diễn văn bản dựa trên các khái niệm mờ.
- Giới thiệu bài toán phân nhóm.
- Phân nhóm dữ liệu.
- Bài toán “Phân nhóm văn bản.
- 35 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 10 2.3.3.
- Giới thiệu bài toán.
- Các thuật toán Phân lớp văn bản cơ bản.
- Đánh giá hiệu suất phân lớp văn bản.
- 59 CHƯƠNG 4 VẤN ĐỀ NGHIÊN CỨU CỦA LUẬN VĂN - BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT.
- Khai phá dữ liệu văn bản tiếng Việt.
- Giới thiệu về bài toán tóm tắt văn bản tiếng Việt theo chủ đề.
- Giới thiệu về tính chủ đề trong bài toán.
- 61 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 11 4.2.2.
- Các khái niệm trong tóm tắt văn bản theo chủ đề.
- Bài toán phân lớp văn bản tiếng Việt.
- 68 CHƯƠNG 5 ĐỀ XUẤT VÀ LỰA CHỌN GIẢI PHÁP TIẾP CẬN BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT.
- Đề xuất hướng tiếp cận bài toán.
- Tiền xử lý văn bản.
- Biểu diễn văn bản trong mô hình vector.
- Giải thuật phân nhóm văn bản.
- Phân lớp văn bản dựa trên tiếp cận phân nhóm.
- Thiết kế tổng thể của hệ thống tóm tắt văn bản tiếng Việt theo chủ đề.
- Chức năng phân lớp văn bản.
- Chức năng vector hóa văn bản.
- 91 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 12 6.2.6.
- Cơ sở dữ liệu thử nghiệm.
- Kết quả phân lớp văn bản.
- 108 PHỤ LỤC 1 - TẬP CÁC TỪ DỪNG (STOPWORD) TIẾNG VIỆT.
- 109 PHỤ LỤC 2 - KẾT QUẢ TEST TRÊN TẬP DỮ LIỆU VNEXPRESS.
- 123 ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 13 PHẦN I CƠ SỞ LÝ THUYẾT ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 14 CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ VĂN BẢN Néi dung: 1.1.
- KÕt luËn ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 15 1.1.
- Nhiệm vụ của đồ án Hiện nay, Lĩnh vực khai phá dữ liệu văn bản đối với tiếng Việt vẫn là một điều mới mẻ với người Việt.
- Gần đây bài toán tóm tắt văn bản phục vụ cho công việc tóm tắt tin tức (tóm tắt trang tin) được nhiều nhà nghiên cứu quan tâm.
- Dựa trên cơ sở nền tảng vốn có về bài toán tách từ trong lĩnh vực ngôn ngữ tự nhiên, bài toán phân nhóm, phân lớp, tóm tắt văn bản trong lĩnh vực khai phá dữ liệu văn bản, người viết luận văn quyết định thử nghiệm bài toán tóm tắt văn bản tiếng Việt theo chủ đề.
- Đó là sự kết hợp của bài toán tóm tắt văn bản với bài toán phân nhóm, phân lớp và bài toán tách từ.
- Khả năng liên kết giữa bài toán tách từ, phân nhóm, phân lớp với bài toán tóm tắt văn bản.
- Tập mẫu cho bài toán tóm tắt văn bản  Khả năng đáp ứng tốc độ cũng như nội dung cho bài toán tóm tắt trang tin.
- Tóm lại, theo cách tiếp cận này, bài toán tóm tắt văn bản tiếng Việt sẽ bao gồm các nhiệm vụ giải quyết các bài toán sau.
- Bài toán tách từ  Bài toán phân nhóm, phân lớp  Bài toán tóm tắt văn bản Trong luận văn này, tác giả đề cập và giải quyết nhiệm vụ.
- Bài toán tách từ  Bài toán phân nhóm, phân lớp Phần nhiệm vụ cuối bài toán toán tóm tắt văn bản dựa trên kết quả của luận văn này, sẽ được giải quyết trong luận văn của tác giả Nguyễn Hồng Thái [18].
- Sau đây người viết luận văn sẽ đi chi tiết vào cơ sở lý thuyết cũng như tiến hành thiết kế mô hình, thử nghiệm giải pháp giải quyết bài toán trên.
- ĐỒ ÁN TỐT NGHIỆP CAO HỌC ĐỀ TÀI: “TÓM TẮT VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ” Hoàng Đức Đông - Cao học CNTT ĐHBKHN 16 1.2.
- Khai phá dữ liệu và phát hiện tri thức trong dữ liệu 1.2.1.
- Ví dụ: dữ liệu là các file trong máy tính, dữ liệu là các văn bản giấy tờ mà chúng ta phải xử lý hàng ngày, các tín hiệu.
- So với dữ liệu và thông tin thì tri thức ở dạng cô đọng và dễ hiểu nhất đối với con người.
- Điều đó cũng cho thấy vai trò quan trọng của lớp các bài toán khai phá dữ liệu và phát hiện tri thức.
- Khai phá dữ liệu và phát hiện tri thức Khai phá dữ liệu, hay Data Mining, được định nghĩa như quá trình phát hiện các tri thức từ các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data warehouse hay các kho chứa thông tin khác[1].
- Thuật ngữ khai phá dữ liệu (data mining) chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt