« Home « Kết quả tìm kiếm

Tóm tắt văn bản báo mạng điện tử tiếng Việt sử dụng Textrank


Tóm tắt Xem thử

- TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK.
- TÓM TẮT: Trong bài báo này chúng tôi đề xuất mô hình tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử.
- Văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh của đồ thị biểu diễn một câu trong văn bản, trọng số các cạnh nối giữa các đỉnh biểu diễn sự tương tự về ngữ nghĩa giữa hai câu (đỉnh).
- Độ quan trọng của câu được xác định qua thuật toán TextRank, trong đó có bổ sung một số đặc trưng riêng của thể loại báo mạng điện tử.
- Hệ thống sẽ trích rút ra những câu quan trọng để đưa vào bản tóm tắt (mặc định 30 % số câu của văn bản).
- Để kiểm chứng mô hình đề xuất chúng tôi so sánh kết quả với kết quả tóm tắt của chuyên gia và kết quả của thuật toán TextRank cơ sở..
- Từ khóa: Tóm tắt văn bản tiếng Việt, báo mạng điện tử, TextRank, tags..
- Tóm tắt văn bản tự động đã được nghiên cứu từ những năm 1950 của thế kỷ XX.
- Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng.
- Theo [12] thì tóm tắt văn bản là quá trình trích lược chắt lọc những thông tin quan trọng nhất từ văn bản gốc để tạo ra một phiên bản giản lược sử dụng cho các mục đích hoặc nhiệm vụ khác nhau.
- Thông thường một văn bản tóm tắt có độ dài không quá nửa so với văn bản gốc.
- Có rất nhiều phương pháp tiếp cận về tóm tắt văn bản, qua đó cũng có rất nhiều cách phân loại các hệ thống tóm tắt văn bản.
- Theo cách phân loại này có tóm tắt theo phương pháp trích rút (Extract) và tóm tắt theo phương pháp tóm lược (Abstract).
- Trong đó tóm tắt theo phương pháp trích rút là bản tóm tắt bao gồm các đơn vị quan trọng như câu, đoạn được trích rút, chọn ra từ văn bản gốc.
- tóm tắt theo phương pháp tóm lược là bản tóm tắt bao gồm những khái niệm, nội dung được tóm lược từ văn bản gốc..
- Hiện nay trên thế giới có nhiều công trình nghiên cứu về tóm tắt tự động văn bản cho nhiều ngôn ngữ khác nhau, tập trung mạnh nhất là đối với tiếng Anh, tiếng Nhật và tiếng Hoa.
- Về phương pháp tóm tắt phần lớn vẫn tập trung vào phương pháp trích rút với các mô hình đề xuất đa dạng và phong phú như: phương pháp sử dụng đặc trưng về tần suất từ TF×IDF, phương pháp phân cụm (cluster based), phương pháp phân tích ngữ nghĩa tiềm ẩn (LSA), phương pháp học máy (machine learning), mạng nơron (neural networks), dựa trên truy vấn (query based), hồi quy toán học (mathematical regression) hay mô hình đồ thị (graphical models)..
- Về lĩnh vực tóm tắt tự động văn bản tiếng Việt, hiện nay các nghiên cứu chủ yếu tập trung vào hướng trích rút với các mô hình sử dụng đặc trưng chung của văn bản tiếng Anh.
- Nguyễn Lê Minh và cộng sự [2] trích rút sử dụng phương pháp SVM với các đặc trưng gồm vị trí câu, chiều dài câu, độ liên quan chủ đề, tần suất từ, cụm từ chính và khoảng cách từ.
- Hà Thành Lê và cộng sự [3] kết hợp một số phương pháp trích rút đặc trưng trong trích rút văn bản tiếng Việt như đặc trưng về tần suất từ TF×IDF, vị trí, từ tiêu đề, từ liên quan.
- Các đặc trưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc.
- Lê Thanh Hương và cộng sự [1] sử dụng giải thuật PageRank cải tiến với hệ số nhân cho các từ xuất hiện trong tiêu đề văn bản để trích rút câu.
- Nguyễn Thị Thu Hà [6] sử dụng đặc trưng tần suất từ, vị trí câu và đặc trưng tiêu đề để trích rút câu quan trọng.
- Nguyễn Nhật An [7] trích rút câu dựa trên các đặc trưng vị trí câu, tần suất từ, độ dài câu, xác xuất thực từ, thực thể có tên, dữ liệu số, tương tự với tiêu đề và câu trung tâm để tính trọng số câu.
- Các nghiên cứu trên chủ yếu sử dụng trên tập dữ liệu là các văn bản báo mạng điện tử tiếng Việt nhưng chưa sử dụng các đặc trưng riêng của thể loại văn bản này như [10] đề cập..
- Vì vậy, trong nghiên cứu này chúng tôi đề xuất phương pháp tóm tắt tự động dựa trên phương pháp TextRank và bổ sung đặc trưng riêng của văn bản báo mạng điện tử tiếng Việt.
- Trong phần II của bài báo chúng tôi sẽ trình bày mô hình tóm tắt văn bản gồm các nội dung: vai trò từ khóa, từ gán nhãn (tags), mô hình TextRank được đề xuất trong bài báo này.
- Dữ liệu thực nghiệm, phương pháp đánh giá và kết quả sẽ được trình bày ở phần III.
- MÔ HÌNH TÓM TẮT.
- Báo mạng điện tử tiếng Việt đã phát triển qua ba giai đoạn.
- Hiện nay cấu trúc thông tin trong một bài báo mạng điện tử thường gồm tít chính, sa pô, chính văn, tít phụ, tranh - ảnh, đồ hình, video và ảnh động, âm thanh, các box thông tin và tư liệu, các đường link, từ khóa và tags.
- Qua nghiên cứu về đặc điểm của báo mạng điện tử, chúng tôi nhận thấy các từ khóa, từ gán nhãn (Tags) và các thực thể có tên, các cụm từ có trong tít chính, trong sa pô là những thành phần mang nhiều thông tin trong văn bản.
- Do vậy để trích xuất câu trong văn bản, chúng tôi thấy rằng cần phải nghiên cứu, đánh giá vai trò về mặt ngữ nghĩa của các đặc trưng trên đối với văn bản báo mạng điện tử.
- Chuẩn hóa văn bản.
- Mô hình hóa văn bản (dạng.
- Tính độ tương tự với Tg, Tt Biểu diễn đồ thị có trọng số.
- Văn bản đầu ra Văn bản tóm tắt.
- Văn bản tóm tắt Văn bản tóm tắt.
- Lựa chọn câu, sinh bản tóm.
- Mô hình tóm tắt với TextRank được chúng tôi đề xuất A.
- Tiền xử lý văn bản.
- Văn bản đầu vào có định dạng file *.txt.
- Văn bản sẽ được đưa qua bộ tiền xử lý văn bản để tách câu, tách từ và loại bỏ các từ dừng..
- Để tách câu, tách từ chúng tôi sử dụng công cụ VnCoreNLP do nhóm tác giả Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras and Mark Johnson phát triển và xây dựng.
- Chúng tôi sử dụng công cụ này vì ngoài khả năng tách câu, tách từ mà còn cung cấp công cụ gán nhãn từ loại để phân biệt từ đơn, từ ghép và nhận biết các danh từ riêng (thực thể có tên) với độ chính xác khá cao..
- Từ dừng (stopwords) được định nghĩa là những từ xuất hiện phổ biến trong văn bản nhưng không mang nhiều ngữ nghĩa trong phân tích ngôn ngữ học, hoặc xuất hiện rất ít trong tập ngữ liệu nên không đóng góp nhiều về mặt ý nghĩa.
- Vì vậy, việc loại bỏ từ dừng sẽ làm giảm độ nhiễu về ngữ nghĩa của các từ này của văn bản.
- Để loại bỏ từ dùng chúng tôi xây dựng một module so sánh các từ trong câu với danh sách từ dừng trong từ điển từ dừng tại https://github.com/stopwords/vietnamese-stopwords/blob/master/vietnamese-stopwords.txt.
- Nếu từ nào xuất hiện trong từ điển từ dừng thì loại khỏi câu trong văn bản..
- Mô hình hóa văn bản dưới dạng đồ thị Tính độ tương tự.
- Trong mô hình của chúng tôi, văn bản sau khi tiền xử lý sẽ được biểu diễn dưới dạng đồ thị vô hướng có trọng số.
- Trọng số cạnh là giá trị độ tương tự giữa hai câu.
- Đối với TextRank, phương pháp tính độ tương tự giữa câu là yếu tố căn bản ảnh hưởng đến kết quả của đầu ra.
- Phương pháp tính độ tương tự trong thuật toán gốc được xác định như sau:.
- Đối với văn bản D:.
- S n , trong đó S i là câu thứ i trong văn bản có n câu..
- Để bổ sung ngữ nghĩa của từ gán nhãn và thực thể có thể có tên trong phương pháp tính độ tương đồng giữa hai câu, ta gọi:.
- Tt là tập các thực thể có tên: Tt = {Tt 1 , Tt 2.
- Bằng việc gán trọng số ngữ nghĩa cho các từ khóa và thực thể có tên chúng tôi đề xuất công thức sau:.
- Để đạt được hiệu quả cao khi sử dụng các hệ số này cần phải có một quá trình thực nghiệm trên nhiều bộ dữ liệu khác nhau hoặc qua quá trình học máy để xác định giá trị phù hợp của chúng.
- Do thời gian thực nghiệm chưa nhiều đồng thời việc hình thành bộ dữ liệu thực nghiệm cũng chiếm nhiều thời gian nên qua quá trình kiểm thử trên tập 50 văn bản chúng tôi chọn giá trị hệ số ngữ nghĩa cho từ gán nhãn là 3, cho thực thể có tên là 2..
- Sau khi biển diễn văn bản dưới dạng đồ thị và tính toán ma trận độ tương tự thuật toán PageRank sẽ được áp dụng để tính toán giá trị mỗi đỉnh..
- Chọn câu, sinh tóm tắt.
- Các câu sẽ được sắp xếp theo mức độ quan trọng giảm dần, sau đó sắp xếp lại theo thứ tự trong văn bản để sinh văn bản đầu ra.
- Ở đây chúng tôi sẽ lấy lần lượt các câu có trọng số từ cao xuống thấp trong đó số lượng câu được xác định thông quan tỉ lệ nén của văn bản tóm tắt, mặc định là 30.
- Các câu sau khi được đưa vào bản tóm tắt sẽ được sắp xếp lại theo thứ tự trong văn bản để có kết quả cuối cùng..
- DỮ LIỆU THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ TÓM TẮT.
- Như đã trình bày ở trên, đối với bài toán tóm tắt văn bản tiếng Việt hiện có một số kho ngữ liệu chia sẻ trên mạng internet tuy nhiên kho những ngữ liệu hiện nay chưa có từ gán nhãn (tags) của văn bản nên không sử dụng được trong bài toán này.
- Do vậy, chúng tôi sử dụng kho ngữ liệu thử nghiệm của riêng mình đã được xây dựng tại [10].
- Kho dữ liệu thử nghiệm này bao gồm 100 văn bản được lựa chọn ngẫu nhiên các bài báo từ các trang báo mạng điện tử Việt Nam gồm các trang http://dangcongsan.vn, https://news.zing.vn, https://vnexpress.net, đảm bảo mỗi bài báo có khoảng 500 từ trở lên.
- Bản tóm tắt của mỗi văn bản được trích rút giữ lại 30 % số câu trong văn bản tạo thành tập kết quả chuyên gia..
- Chúng tôi phối hợp với chuyên gia là nhà báo có kinh nghiệm để lựa chọn câu trong bản tóm tắt..
- Để đánh giá độ chính xác của bản trích rút tự động, chúng tôi sử dụng phương pháp đánh giá đồng chọn..
- Phương pháp đánh giá này phù hợp với các bản tóm tắt theo hướng trích rút câu qua việc so sánh giữa bản tóm tắt do hệ thống trích rút với bản tóm tắt do con người trích rút dựa trên ba đặc trưng là độ đo chính xác (precision), độ đo triệu hồi (recall) và độ đo f- score..
- Độ đo chính xác (precision): Được tính dựa trên tỉ lệ giữa tổng số câu trùng nhau của văn bản tóm tắt thủ công và văn bản tóm tắt của hệ thống với tổng số câu văn bản tóm tắt của hệ thống..
- Độ đo triệu hồi (recall): Được tính dựa trên tỉ lệ tổng số câu trùng nhau của văn bản tóm tắt thủ công và văn bản tóm tắt của hệ thống với tổng số câu của văn bản tóm tắt thủ công..
- trong đó: SM là tập câu trích rút từ hệ thống, SH là tập câu trích rút thủ công, |SM| là số phần tử của tập SM..
- Đánh giá độ chính xác trên tập gồm 100 văn bản Precision Recall F 1 -score.
- Từ Bảng 1, chúng tôi có một số nhận xét sau đối với kết quả trên tập dữ liệu thử nghiệm:.
- Việc tính đến trọng số ngữ nghĩa của từ gán nhãn và thực thể có tên trong phương pháp tính độ tương đồng câu cho kết quả khả quan hơn tuy không nhiều..
- So sánh với tại [10] cho kết quả thấp hơn cho thấy việc áp dụng phương pháp TextRank vào tóm tắt văn bản báo mạng điện tử cần phải nghiên cứu để tiếp tục có phương pháp cải tiến..
- Khi xem xét cụ thể từng bản trích rút do chuyên gia và do hệ thống thực hiện chúng tôi nhận thấy cũng giống như trong [10] các câu trong bản trích rút theo phương pháp TextRank cũng phân bố không đồng đều trong văn bản..
- Bài báo đã đưa ra phương pháp tiếp cận tóm tắt trích rút đối với văn bản báo mạng điện tử dựa trên phương pháp TextRank có bổ sung một số đặc trưng riêng của báo mạng điện tử là từ gán nhãn và thực thể có tên.
- Kết quả thu được từ thực nghiệm cho thấy vai trò quan trọng về ngữ nghĩa của từ gãn nhãn và thực thể có tên trong bài toán tóm tắt văn bản báo mạng điện tử tiếng Việt..
- Trong thời gian tới chúng tôi sẽ tiếp tục thử nghiệm trên các tập dữ liệu khác nhau nhằm tối ưu hóa phương pháp tính độ tương đồng câu với từ gán nhãn và thực thể có tên, nâng cao hiệu quả của phương pháp này.
- Đồng thời chúng tôi cũng sẽ bổ sung giải pháp loại bỏ câu tương đồng nhằm hạn chế số lượng các câu có sự tương đồng cao nhưng có trọng số lớn cùng được lựa chọn vào bản tóm tắt..
- Chúng tôi chân thành gửi lời cám ơn tới nhà báo Trần Lệ Thủy - phóng viên báo Phụ Nữ Việt Nam, câu lạc bộ ngôn ngữ EQ đã hỗ trợ chúng tôi trong quá trình nghiên cứu và xây dựng kho ngữ liệu cho bài báo này, chúng tôi cũng trân trọng gửi lời cám ơn nhóm tác giả thư viện VnCoreNLP..
- [1] Lê Thanh Hương, “Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt”, Báo cáo tổng kết đề tài cấp KH và CN cấp Bộ, Đại học Bách khoa Hà Nội, 2014..
- [2] Nguyễn Nhật An, “Nghiên cứu, phát triển các kỹ thuật tự động tóm tắt văn bản tiếng Việt”, Luận án tiến sỹ Toán học, Viện Khoa học và Công nghệ quân sự, 2015..
- [4] Nguyễn Thị Trường Giang, Báo mạng điện tử - những vấn đề cơ bản, Nhà xuất bản Chính trị Quốc gia, 2014..
- [7] Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt”, Tạp chí Phát triển KH&CN, Tập 19, số K .
- [9] Lê Thị Ngọc Thơ, “Rút trích từ khóa từ văn bản pháp luật tiếng Việt bằng thuật toán TextRank”, Hội nghị khoa học Đại học Công nghệ Tp.
- [11] Trương Quốc Định, Nguyễn Quang Dũng, “Một giải pháp tóm tắt văn bản tiếng Việt”, Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của công nghệ thông tin và truyền thông, 2012..
- [14] Nguyễn Trí Nhiệm, Nguyễn Thị Trường Giang, Báo mạng điện tử - đặc trưng và phương pháp sáng tạo, Nhà xuất bản Chính trị Quốc gia, 2014.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt