Một Phương Pháp Kết Hợp Các Mô Hình Học Sâu Và Kỹ Thuật Học Tăng Cường Hiệu Quả Cho Tóm Tắt Văn Bản Hướng Trích Rút

Lưu Tuấn

Tóm tắt văn bản tự động là bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Tóm tắt văn bản trích rút các thông tin quan trọng nhất từ một hoặc nhiều văn bản nguồn để tạo ra một văn bản tóm tắt ngắn gọn, súc tích nhưng vẫn giữ được các ý chính, đúng ngữ pháp và đảm bảo được tính mạch lạc của văn bản. Với việc áp dụng các kỹ thuật học máy cũng như các mô hình học sâu trong các mô hình tóm tắt văn bản tự động đã cho các bản tóm tắt gần giống với các bản tóm tắt tham chiếu của con người. Trong bài báo này, chúng tôi đề xuất một phương pháp tóm tắt văn bản hướng trích rút hiệu quả sử dụng kết hợp các mô hình học sâu, kỹ thuật học tăng cường và phương pháp MMR để sinh bản tóm tắt. Phương pháp đề xuất của chúng tôi được thử nghiệm trên các bộ dữ liệu CNN (tiếng Anh) và Baomoi (tiếng Việt) cho các kết quả độ chính xác F1-score với Rouge-1, Rouge-2, Rouge-L là 31,36%, 12,84%, 28,33% và 51,95%, 24,38%, 37,56% tương ứng. Các kết quả thử nghiệm cho thấy phương pháp tóm tắt đề xuất của chúng ...

TNU Journal of Science and Technology 226(11): 208 - 215 AN EFFECTIVE METHOD COMBINING DEEP LEARNING MODELS AND REINFORCEMENT LEARNING TECHNOLOGY FOR EXTRACTIVE TEXT SUMMARIZATION Luu Minh Tuan1,2, Le Thanh Huong1*, Hoang Minh Tan1 1Hanoi University of Science and Technology, 2National Economics University ARTICLE INFO Received: 13/7/2021 Revised: 12/8/2021 Published: 12/8/2021 KEYWORDS Text summarization Reinforcement learning BERT model CNN GRU ABSTRACT Automatic text summarization is an important problem in natural language processing. Text summarization extracts the most important information from one or many source texts to generate a brief, concise summary that still retains main ideas, correct grammar and ensures the coherence of the text. With the application of machine learning techniques as well as deep learning models in automatic text summarization models gave summaries that were closely resemble human reference summaries. In this paper, we propose an effective extractive text summarization method by combining the deep learning models, the reinforcement learning technique and MMR method to generate the summary. Our proposed method is experimented on CNN dataset (English) and Baomoi dataset (Vietnamese) giving F1score accuracy results with Rouge-1, Rouge-2, Rouge-L are 31.36%, 12.84%, 28.33% and 51.95%, 24.38%, 37.56%, respectively. The experimental results show that our proposed summarization method has achieved good results for English and Vietnamese text summarization. MỘT PHƯƠNG PHÁP KẾT HỢP CÁC MÔ HÌNH HỌC SÂU VÀ KỸ THUẬT HỌC TĂNG CƯỜNG HIỆU QUẢ CHO TÓM TẮT VĂN BẢN HƯỚNG TRÍCH RÚT Lưu Minh Tuấn1,2, Lê Thanh Hương1*, Hoàng Minh Tân1 1Trường Đại học Bách khoa Hà Nội, 2Trường Đại học Kinh tế Quốc dân THÔNG TIN BÀI BÁO Ngày nhận bài: 13/7/2021 Ngày hoàn thiện: 12/8/2021 Ngày đăng: 12/8/2021 TỪ KHÓA Tóm tắt văn bản Học tăng cường Mô hình BERT Mạng CNN Mạng GRU TÓM TẮT Tóm tắt văn bản tự động là bài toán quan trọng trong xử lý ngôn ngữ tự nhiên. Tóm tắt văn bản trích rút các thông tin quan trọng nhất từ một hoặc nhiều văn bản nguồn để tạo ra một văn bản tóm tắt ngắn gọn, súc tích nhưng vẫn giữ được các ý chính, đúng ngữ pháp và đảm bảo được tính mạch lạc của văn bản. Với việc áp dụng các kỹ thuật học máy cũng như các mô hình học sâu trong các mô hình tóm tắt văn bản tự động đã cho các bản tóm tắt gần giống với các bản tóm tắt tham chiếu của con người. Trong bài báo này, chúng tôi đề xuất một phương pháp tóm tắt văn bản hướng trích rút hiệu quả sử dụng kết hợp các mô hình học sâu, kỹ thuật học tăng cường và phương pháp MMR để sinh bản tóm tắt. Phương pháp đề xuất của chúng tôi được thử nghiệm trên các bộ dữ liệu CNN (tiếng Anh) và Baomoi (tiếng Việt) cho các kết quả độ chính xác F1-score với Rouge-1, Rouge-2, Rouge-L là 31,36%, 12,84%, 28,33% và 51,95%, 24,38%, 37,56% tương ứng. Các kết quả thử nghiệm cho thấy phương pháp tóm tắt đề xuất của chúng tôi đã đạt các kết quả tốt cho tóm tắt văn bản tiếng Anh và tiếng Việt. DOI: https://doi.org/10.34238/tnu-jst.4747 * Corresponding author. Email: huonglt@soict.hust.edu.vn http://jst.tnu.edu.vn 208 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 1. Giới thiệu Tóm tắt văn bản giúp chúng ta lựa chọn được những thông tin hữu ích, giảm thiểu không gian lưu trữ và thời gian xử lý. Có hai hướng tiếp cận tóm tắt văn bản phổ biến là tóm tắt hướng trích rút thường lựa chọn các câu từ văn bản nguồn, trong khi đó tóm tắt hướng tóm lược thực hiện lựa chọn các từ, các cụm từ trong văn bản nguồn hoặc có thể tạo ra các từ mới, các cụm từ mới để sinh ra bản tóm tắt. Các phương pháp tóm tắt hướng trích rút giai đoạn đầu thường sử dụng kỹ thuật cho điểm câu để lựa chọn tốp các câu có điểm cao nhất đưa vào bản tóm tắt như LEAD [1], LexRank [2], TextRank [3]. Các phương pháp này thường kết hợp với kỹ thuật điều chỉnh trọng số ở mức từ, đây là một trong các yếu tố ảnh hưởng đến chất lượng của bản tóm tắt đầu ra. Gần đây, các kỹ thuật học máy, học sâu được sử dụng để phát triển các hệ thống tóm tắt văn bản hiệu quả như phương pháp độ liên quan cận biên tối đa (MMR) [4] loại bỏ các thông tin dư thừa trong bản tóm tắt. Hệ thống [5] thực hiện trích rút câu sử dụng mạng CNN để sinh bản tóm tắt. Hệ thống [6] coi nhiệm vụ tóm tắt văn bản hướng trích rút là nhiệm vụ gán nhãn câu dựa trên xác suất được chọn của các câu. Hệ thống [7] sử dụng mô hình mạng nơron khép kín (end-to-end) để lựa chọn câu đưa vào bản tóm tắt. Hệ thống [8] coi nhiệm vụ tóm tắt hướng trích rút là bài toán phân loại văn bản và tính toán xác suất được chọn của các câu để sinh bản tóm tắt. Trong khi đó, hệ thống MATCHSUM [9] coi nhiệm vụ tóm tắt hướng trích rút là bài toán so khớp ngữ nghĩa văn bản để sinh bản tóm tắt thay vì trích rút các câu riêng lẻ, nhưng hệ thống này yêu cầu tài nguyên huấn luyện cho mô hình lớn. Bên cạnh đó, các kỹ thuật học tăng cường cũng đã chứng minh được tính hiệu quả trong các hệ thống tóm tắt văn bản. Hệ thống [10] sử dụng điểm ROUGE như một phần của hàm điểm thưởng, kỹ thuật học tăng cường Q-Learning được sử dụng trong [11]. Hệ thống [12] kết hợp kỹ thuật học tăng cường với các kỹ thuật học sâu để xây dựng hệ thống tóm tắt hướng trích rút. Các kỹ thuật học máy và học sâu cũng được sử dụng trong các nghiên cứu về tóm tắt văn bản tiếng Việt như trong [13], [14]. Nghiên cứu trong [13] trích rút câu đưa vào bản tóm tắt sử dụng thuật toán di truyền, trong khi đó hệ thống [14] xây dựng mô hình seq2seq với cơ chế chú ý để sinh bản tóm tắt đầu ra. Nhìn chung, các phương pháp tóm tắt trên chưa quan tâm nhiều đến biểu diễn ngữ cảnh và ngữ nghĩa của từ trong văn bản đầu vào. Trong các hệ thống tóm tắt, vấn đề mã hóa văn bản đầu vào có vai trò quan trọng quyết định chất lượng của bản tóm tắt nên một số nghiên cứu đã sử dụng các mô hình mã hóa từ được huấn luyện trước như mô hình word2vec [15], GloVe [16], nhưng các mô hình này không biểu diễn được ngôn ngữ theo ngữ cảnh. Gần đây, mô hình BERT (Bidirectional Encoder Representations from Transformers) huấn luyện trước [17] được phát triển để biểu diễn ngôn ngữ theo ngữ cảnh hai chiều đã tạo ra các mô hình hiệu quả cho bài toán tóm tắt văn bản. Trong bài báo này, chúng tôi sử dụng hai mô hình của mô hình BERT huấn luyện trước (pretrained BERT), đó là BERT thu gọn (BERT-Tiny) [18], BERT đa ngôn ngữ (mBERT) [19] để mã hóa văn bản tiếng Anh, tiếng Việt tương ứng. Mô hình phân loại câu được xây dựng sử dụng mạng nơron tích chập (CNN), mô hình chuỗi sang chuỗi (seq2seq) với bộ mã hóa văn bản sử dụng mạng GRU hai chiều (biGRU) và bộ trích rút câu sử dụng mạng GRU một chiều. Bộ trích rút câu được huấn luyện sử dụng kỹ thuật học tăng cường Deep Q-Learning (DeepQL) [20] để tăng hiệu quả cho mô hình tính xác suất được chọn của các câu. Cuối cùng, phương pháp MMR được sử dụng để loại bỏ thông tin dư thừa cho bản tóm tắt. Phương pháp tóm tắt đề xuất được thử nghiệm trên bộ dữ liệu CNN, Baomoi cho tóm tắt tiếng Anh, tiếng Việt tương ứng. Độ đo ROUGE tiêu chuẩn [21] gồm điểm F1-Score trên Rouge-1, Rouge-2 và Rouge-L được sử dụng để đánh giá hiệu quả của các hệ thống tóm tắt trong bài báo. Kết quả thử nghiệm cho thấy phương pháp đề xuất đạt kết quả tốt hơn các hệ thống hiện đại khác trên cùng bộ dữ liệu thử nghiệm. Phần còn lại của bài báo được bố cục như sau: Phần 2 trình bày phương pháp tóm tắt đề xuất của chúng tôi. Phần 3 trình bày các kết quả thử nghiệm và đánh giá phương pháp đề xuất. Cuối cùng, phần 4 là kết luận và đề xuất hướng phát triển cho nghiên cứu trong tương lai. http://jst.tnu.edu.vn 209 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 2. Phương pháp đề xuất 2.1. Mô hình tóm tắt văn bản đề xuất Mô hình tóm tắt văn bản đề xuất của chúng tôi gồm 03 mô đun chính: Véctơ hóa văn bản, phân loại câu và sinh bản tóm tắt, được biểu diễn trong Hình 1. Hình 1. Mô hình tóm tắt văn bản đề xuất 2.1.1. Véctơ hóa văn bản Văn bản đầu vào được xử lý tách câu và lấy 64 câu đầu tiên để biểu diễn cho văn bản. Sau đó, lấy 128 từ đầu tiên để biểu diễn cho mỗi câu (đệm “0” nếu cần). Các câu này được mã hóa sử dụng các mô hình BERT-Tiny (với 2 lớp, 128 chiều, 4 triệu tham số), mBERT (với 12 lớp, 768 chiều, 110 triệu tham số) để thu được các véctơ mã hóa từ 128 chiều, 768 chiều cho tiếng Anh, tiếng Việt tương ứng. Các véctơ này được sử dụng làm đầu vào cho mạng CNN để trích rút các đặc trưng văn bản, đồng thời các véctơ mã hóa từ của mỗi câu được xử lý bởi phép toán Average Pooling để sinh ra véctơ mã hóa câu 128 chiều, 768 chiều tương ứng, được sử dụng làm đầu vào cho bộ mã hóa văn bản và bộ trích rút câu trong mô hình seq2seq của mô đun phân loại câu. 2.1.2. Phân loại câu Chúng tôi coi bài toán tóm tắt văn bản như nhiệm vụ phân loại văn bản. Mục đích của mô đun là tính xác suất được chọn của các câu đưa vào bản tóm tắt. Để thực hiện nhiệm vụ này, mô đun phân loại câu được xây dựng gồm các thành phần chính sau đây. (a) Mạng CNN: Kiến trúc mạng CNN [22] được sử dụng và hiệu chỉnh cho mô hình đề xuất. Kiến trúc mạng CNN đề xuất gồm 2 lớp tích chập (Convolution) (lớp thứ nhất có 64 bộ lọc, lớp thứ hai có 16 bộ lọc) với Kernel kích thước 4x4. Sau mỗi lớp Convolution đều có một lớp Max Pool để giảm số lượng tham số cho mô hình. Để sinh đặc trưng cho xâu đầu vào, chúng tôi sử dụng một cửa sổ trượt trên một phần của câu và trên một vài câu cạnh nhau (được minh họa trong Hình 1). Sau khi trượt trên toàn bộ văn bản sẽ sinh ra một bản đồ đặc trưng (feature map). Sau đó, các feature map được áp dụng phép toán Max pool để giảm chiều, làm phẳng (Flatten), rồi đưa qua lớp mạng nơron kết nối đầy đủ (FC) không có hàm kích hoạt (xem như phép chiếu để giảm chiều) nhận đầu vào là véctơ 256 chiều, 1.024 chiều để thu được một véctơ mã hóa văn bản 64 chiều, 256 chiều cho tiếng Anh, tiếng Việt tương ứng. (b) Mô hình seq2seq: Mô hình seq2seq [23] gồm bộ mã hóa và bộ giải mã. Kiến trúc mô hình seq2seq của chúng tôi được xây dựng gồm bộ mã hóa văn bản và bộ trích rút câu. Cả hai thành phần này đều nhận đầu vào là tập gồm H véctơ câu (với H là số lượng câu lớn nhất của văn bản). http://jst.tnu.edu.vn 210 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 • Bộ mã hóa văn bản: Chúng tôi sử dụng mạng biGRU [24] có 256 trạng thái ẩn (bằng 2*128 trạng thái ẩn) cho cả tiếng Anh và tiếng Việt. Đầu vào tại mỗi bước t là một véctơ câu 128 chiều, 768 chiều tương ứng cho tiếng Anh, tiếng Việt biểu diễn cho câu xt. Sau H bước thu được 2 véctơ trạng thái nhớ tương ứng của 2 lớp GRU theo chiều tiến và GRU theo chiều lùi (mỗi véctơ có 128 chiều) mã hóa cho văn bản đầu vào. Hai véctơ này được ghép nối với véctơ đầu ra của mạng CNN bởi phép toán “ghép nối” (ký hiệu ) để thu được véctơ có 320 chiều, 512 chiều cho tiếng Anh, tiếng Việt tương ứng, được sử dụng làm véctơ trạng thái nhớ đầu vào cho bộ trích rút câu để tính xác suất lựa chọn của các câu. • Bộ trích rút câu: Mạng GRU được sử dụng gồm 320 trạng thái ẩn, 512 trạng thái ẩn cho tiếng Anh, tiếng Việt tương ứng, số trạng thái ẩn bằng số chiều của véctơ mã hóa câu sau phép toán ghép nối. Ở mỗi bước i, câu đầu vào x<i> được đệm với “0” nếu cần để đảm bảo độ dài câu bằng số trạng thái ẩn của mạng GRU, đầu ra y<i> tương ứng được đưa qua lớp FC (với hàm kích hoạt softmax) nhận đầu vào là véctơ 320 chiều, 512 chiều cho tiếng Anh, tiếng Việt tương ứng và đầu ra là véctơ 2 chiều chứa xác suất được chọn của các câu. 2.1.3. Sinh bản tóm tắt Xác suất được chọn của các câu từ bộ trích rút câu được sắp xếp theo thứ tự giảm dần. Các câu có xác suất cao sẽ được chọn đưa vào tóm tắt cho đến khi đạt độ dài giới hạn của bản tóm tắt. Phương pháp MMR dùng trong tìm kiếm thông tin [4] được định nghĩa lại để áp dụng cho bài toán tóm tắt văn bản nhằm loại bỏ thông tin dư thừa dựa trên độ tương đồng giữa câu đang xét và các câu đã có trong bản tóm tắt. Công thức tính MMR như sau:   MMR = Arg max   Sim1 ( Di , Q ) − (1 −  ) max Sim2 ( Di , D j )   Di C \S ,Q D S  j    (1) Với: C là tập các câu ứng cử viên để chọn đưa vào bản tóm tắt, S là tập các câu đã có trong bản tóm tắt, Q là một câu trong tập C, Di, Dj tương ứng là câu đang xét, câu đã có trong bản tóm tắt, λ là siêu tham số (λ  [0;1]), Sim1, Sim2 là độ tương đồng giữa hai câu u và v tính theo công thức: Sim1 ( u , v ) = Sim2 ( u , v ) =  wv  tf w ,u tf w ,v ( idf w ) wu ( tf w ,u idf w ) 2 (2) 2 Với: tfw,u là tần suất thuật ngữ của từ w trong câu u; idfw là độ quan trọng của từ w. 2.2. Huấn luyện mô hình với kỹ thuật học tăng cường Trước hết, mô hình phân loại câu được huấn luyện để trạng thái ẩn đầu vào có đầy đủ các thông tin cần thiết của mô hình. Sau đó, bộ trích rút câu được huấn luyện tiếp sử dụng kỹ thuật học tăng cường Deep Q-Learning [20] để tăng tính hiệu quả cho mô hình tính xác suất được chọn của các câu. Các yếu tố quyết định trong học tăng cường là thông tin về trạng thái hiện tại, hành động tương ứng, điểm thưởng và chiến lược học được cài đặt như sau: Trạng thái: Mỗi trạng thái st biểu diễn cho câu đang xét gồm hai thành phần: ht là trạng thái ẩn mã hóa cho các trạng thái trước đó, được tạo bởi mạng GRU của tác tử đang tương tác với môi trường; xt là mã hóa trạng thái đang xét, là véctơ câu đầu ra sau phép toán Average Pooling. Hành động: Có 2 hành động tương ứng dựa trên xác suất đầu ra của lớp FC đối với một trạng thái: “1” - chọn câu đang xét, “0” - không chọn câu đang xét. Điểm thưởng: Ở trạng thái t, nếu không chọn câu đang xét sentt thì nhận điểm thưởng bằng 0. Nếu chọn câu đang xét sentt thì sẽ nhận điểm thưởng Rt được tính theo công thức: Rt = Rouge _ L(sentt , D) −  (bằng điểm Rouge-L của câu đang xét sentt so với bản tóm tắt hiện có D trừ đi giá trị δ để tránh chọn các câu quá khác biệt so với bản tóm tắt hiện có). Chiến lược: Ở trạng thái st, tác tử thực hiện một hành động để chuyển đến trạng thái st+1, nhận điểm thưởng Rt từ môi trường và mục tiêu là tìm chiến lược có tổng điểm thưởng lớn nhất. http://jst.tnu.edu.vn 211 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 Mô hình huấn luyện đề xuất với kỹ thuật học tăng cường Deep Q-Learning của chúng tôi được thiết lập như Hình 2. Hình 2. Mô hình huấn luyện với kỹ thuật học tăng cường Deep Q-Learning 3. Thử nghiệm và đánh giá 3.1. Dữ liệu thử nghiệm Phương pháp đề xuất được thử nghiệm trên hai bộ dữ liệu: CNN của bộ dữ liệu CNN/Daily Mail [25] cho tiếng Anh và Baomoi cho tiếng Việt. Bộ dữ liệu CNN/Daily Mail gồm 312.085 bài báo tin tức (bộ dữ liệu CNN có 92.579 bài báo) và các câu nổi bật đi kèm trong mỗi bài báo được sử dụng để đánh giá độ chính xác của bản tóm tắt đầu ra. Số câu nổi bật trung bình xấp xỉ 3 nên bản tóm tắt cũng chọn 3 câu cho tương ứng. Bộ dữ liệu Baomoi được thu thập từ các bài báo tin tức của trang báo điện tử Việt Nam (http://baomoi.com) gồm 1.000.847 bài báo tin tức. Mỗi bài báo gồm 3 phần: tiêu đề, tóm tắt và nội dung. Phần tóm tắt có trung bình xấp xỉ 2 câu, được sử dụng làm cơ sở để sinh bản tóm tắt gồm 2 câu và đánh giá độ chính xác của bản tóm tắt đầu ra. 3.2. Tiền xử lý dữ liệu Trước hết, các bộ dữ liệu CNN, Baomoi được xử lý tách phần nội dung, tóm tắt và đánh số thứ tự cho các câu. Các thư viện StanfordNLP3, VnCoreNLP4 được sử dụng để tách câu của văn bản cho bộ dữ liệu CNN, Baomoi tương ứng. Tiếp theo, các câu được gán nhãn dựa trên tối đa tổng của R-2 và R-L sử dụng thư viện Rouge-score 0.0.45. Sau đó, các câu này được đưa vào mô hình BERT-Tiny, mBERT tương ứng để thu được các véctơ mã hóa từ của các câu. Đồng thời, các véctơ mã hóa từ của mỗi câu được xử lý sử dụng thư viện PyTorch6 để được véctơ mã hóa câu 128 chiều, 768 chiều cho tiếng Anh, tiếng Việt tương ứng. 3.3. Thiết kế thử nghiệm Trước hết, chúng tôi thực hiện thử nghiệm một số phương pháp cơ bản trên hai bộ dữ liệu CNN và Baomoi. Các độ đo Rouge-1 (R-1), Rouge-2 (R-2) và Rouge-L (R-L) tính dựa trên thư viện Rouge-score 0.0.4 được sử dụng để đánh giá độ chính xác của các phương pháp tóm tắt thử nghiệm. R-1, R-2 là tỉ lệ % số 1-gram, 2-gram chung giữa bản tóm tắt của hệ thống và bản tóm 3 https://stanfordnlp.github.io/CoreNLP/ https://github.com/vncorenlp/VnCoreNLP/ 5 https://github.com/google-research/google-research/tree/master/rouge/ 6 https://github.com/pytorch/pytorch/ 4 http://jst.tnu.edu.vn 212 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 tắt tham chiếu, còn R-L là tỉ lệ % dãy con chung dài nhất giữa hai bản tóm tắt đó. Các kết quả thử nghiệm được trình bày như trong Bảng 1. Bảng 1. Kết quả thử nghiệm một số phương pháp cơ bản Phương pháp LexRank TextRank LEAD R-1 22,9 26,0 29,0 CNN R-2 6,6 7,3 10,7 R-L 17,2 19,2 19,3 R-1 38,5 44,7 46,5 Baomoi R-2 17,0 19,2 20,3 R-L 28,9 32,9 30,8 Tiếp theo, chúng tôi triển khai thử nghiệm bốn mô hình kịch bản trên hai bộ dữ liệu CNN và Baomoi để lựa chọn mô hình hiệu quả nhất cho phương pháp đề xuất. Các kịch bản mô hình thử nghiệm được trình bày sau đây. (i) Kịch bản 1 (BERT-Tiny/mBERT + CNN + seq2seq): Sử dụng mô hình BERT-Tiny (đối với CNN), mBERT (đối với Baomoi) kết hợp với mạng CNN và mạng seq2seq để huấn luyện mô hình tính xác suất được chọn của các câu đưa vào bản tóm tắt. (ii) Kịch bản 2 (BERT-Tiny/mBERT + CNN + seq2seq + MMR): Mô hình kịch bản 1 kết hợp với phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. (iii) Kịch bản 3 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL): Mô hình kịch bản 1 kết hợp với kỹ thuật học tăng cường Deep Q-Learning để huấn luyện bộ trích rút câu để lựa chọn câu đưa vào bản tóm tắt. (iv) Kịch bản 4 (BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR): Mô hình kịch bản 3 kết hợp với phương pháp MMR để lựa chọn câu đưa vào bản tóm tắt. Chúng tôi sử dụng thư viện Transformers7 để kế thừa các mô hình BERT-Tiny, mBERT và thư viện PyTorch để xây dựng mô hình phân loại câu. Các mô hình kịch bản được huấn luyện sử dụng Google Colab với cấu hình máy chủ GPU V100, 25GB RAM được cung cấp bởi Google Research. Kết quả thử nghiệm của các mô hình kịch bản thu được như trong Bảng 2. Bảng 2. Kết quả thử nghiệm của các mô hình kịch bản CNN 1 R-1 R-2 R-L BERT-Tiny/mBERT + CNN + seq2seq 29,55 11,67 27,12 BERT-Tiny/mBERT + CNN + seq2seq + MMR 30,09 11,95 27,80 BERT-Tiny/mBERT + CNN + seq2seq + DeepQL 30,49 12,22 27,89 BERT-Tiny/mBERT + CNN + seq2seq + 31,36 12,84 28,33 DeepQL + MMR R-1 51,17 51,41 51,73 51,95 Baomoi R-2 R-L 23,83 36,54 24,01 36,92 24,10 37,18 24,38 37,56 Với các kết quả thử nghiệm trong Bảng 2, mặc dù mô hình trong kịch bản 1 chưa xử lý loại bỏ các thông tin trùng lặp nhưng đã cho kết quả khả quan và tốt hơn các phương pháp như LexRank, TextRank, LEAD (Bảng 1) trên cả hai bộ dữ liệu CNN và Baomoi. Trong mô hình kịch bản 2, phương pháp MMR được sử dụng để loại bỏ các thông tin trùng lặp đã cho kết quả tốt hơn mô hình kịch bản 1. Mô hình trong kịch bản 3 mặc dù chưa xử lý loại bỏ các thông tin trùng lặp nhưng việc kết hợp kỹ thuật học tăng cường Deep Q-Learning đã cho kết quả tốt hơn so với mô hình kịch bản 1 và tốt hơn cả mô hình kịch bản 2. Với việc sử dụng phương pháp MMR, mô hình trong kịch bản 4 đã cho các kết quả tốt hơn rõ rệt so với mô hình kịch bản 3 trên cả hai bộ dữ liệu CNN và Baomoi nên mô hình trong kịch bản 4 được lựa chọn cho phương pháp tóm tắt đề xuất. 3.4. So sánh và đánh giá kết quả Chúng tôi so sánh kết quả thử nghiệm của phương pháp tóm tắt đề xuất với kết quả thử nghiệm của các hệ thống mà chúng tôi đã thử nghiệm và các hệ thống hiện đại khác đã công bố 7 https://huggingface.co/transformers/ http://jst.tnu.edu.vn 213 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 trên cùng bộ dữ liệu thử nghiệm. Kết quả so sánh và đánh giá được trình bày như trong Bảng 3 (ký hiệu ‘*’, ‘-’ biểu diễn hệ thống mà chúng tôi đã thử nghiệm, hệ thống không được thử nghiệm trên các bộ dữ liệu tương ứng). Bảng 3. So sánh và đánh giá kết quả của các phương pháp R-1 22,9 26,0 29,0 28,4 30,4 CNN R-2 6,6 7,3 10,7 10,0 11,7 R-L 17,2 19,2 19,3 25,0 26,9 R-1 38,5 44,7 46,5 - Baomoi R-2 17,0 19,2 20,3 - R-L 28,9 32,9 30,8 - 31,36 12,84 28,33 51,95 24,38 37,56 Phương pháp LexRank* TextRank* LEAD* Cheng và Lapata (2016) [12] REFRESH [12] BERT-Tiny/mBERT + CNN + seq2seq + DeepQL + MMR (phương pháp đề xuất) Kết quả trong Bảng 3 cho thấy, phương pháp tóm tắt sử dụng mô hình BERT-Tiny/mBERT, CNN, seq2seq, kỹ thuật học tăng cường và phương pháp MMR cho kết quả tốt hơn đáng kể so với các hệ thống hiện đại khác trên hai bộ dữ liệu CNN và Baomoi tương ứng. Điều này chứng tỏ phương pháp tóm tắt đề xuất đã đạt hiệu quả tốt cho tóm tắt văn bản tiếng Anh và tiếng Việt. 4. Kết luận và hướng phát triển Trong nghiên cứu này, chúng tôi đã đề xuất một phương pháp tóm tắt văn bản hướng trích rút sử dụng các mô hình học sâu kết hợp với kỹ thuật học tăng cường và phương pháp MMR để sinh bản tóm tắt đầu ra. Mô hình được huấn luyện trên toàn bộ văn bản bằng cách tối ưu hóa điểm ROUGE. Phương pháp đề xuất đã cho kết quả thử nghiệm tốt hơn các hệ thống hiện đại khác trên cùng bộ dữ liệu thử nghiệm. Trong phương pháp đề xuất, văn bản được mã hóa sử dụng các mô hình pretrained BERT bị giới hạn về độ dài. Trong tương lai, chúng tôi nghiên cứu áp dụng mô hình GPT (Generative Pre-Training) [26] để cải thiện chất lượng của bản tóm tắt đầu ra nhằm nâng cao hiệu quả cho phương pháp đề xuất. Lời cám ơn Nghiên cứu này được tài trợ bởi Trường Đại học Bách khoa Hà Nội (HUST) trong khuôn khổ đề tài mã số T2020-PC-208. TÀI LIỆU THAM KHẢO/ REFERENCES [1] M. Wasson, “Using leading text for news summaries: Evaluation results and implications for commercial summarization applications,” Proceedings of COLING 1998 vol. 2: The 17th International Conference on Computational Linguistics, 1998, pp. 1364-1368. [2] G. Erkan and D. R. Radev, “LexRank: Graph-based Lexical Centrality as Salience in Text Summarization,” Journal of Artificial Intelligence Research, vol. 22, pp. 457-479, 2004. [3] R. Mihalcea and P. Tarau, "TextRank: Bringing Order into Texts," Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004, pp. 404-411. [4] J. Carbonell and J. Goldstein, “The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries,” Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, 1998, pp. 335-336. [5] Y. Zhang, J. E. Meng, and M. Pratama, “Extractive Document Summarization Based on Convolutional Neural Networks,” In IECON 2016 - 42nd Annual Conference of the IEEE Industrial Electronics Society, 2016, pp. 918-922. [6] J. Cheng and M. Lapata, “Neural summarization by extracting sentences and words,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, vol. 1, 2016, pp. 484-494. [7] Q. Zhou, N. Yang, F. Wei, S. Huang, M. Zhou, and T. Zhao, “Neural Document Summarization by Jointly Learning to Score and Select Sentences,” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, vol. 1, 2018, pp. 654-663. http://jst.tnu.edu.vn 214 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 208 - 215 [8] K. Al-Sabahi, Z. Zuping, and M. Nadher, “A Hierarchical Structured Self-Attentive Model for Extractive Document Summarization (HSSAS),” IEEE Access, vol. 6, pp. 24205-24212, 2018. [9] M. Zhong, P. Liu, Y. Chen, D. Wang, X. Qiu, and X. Huang, “Extractive Summarization as Text Matching,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 6197-6208. [10] C. Rioux, S. A. Hasan, and Y. Chali, “Fear the REAPER: A system for automatic multidocument summarization with reinforcement learning,” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 681-690. [11] S. Hen, M. Mieskes, and I. Gurevych, “A reinforcement learning approach for adaptive single and multi-document summarization,” Proceedings of International Conference of the German Society for Computational Linguistics and Language Technology, 2015, pp. 3-12. [12] S. Narayan, S. B. Cohen, and M. Lapata, “Ranking Sentences for Extractive Summarization with Reinforcement Learning,” Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1, 2018, pp. 1747-1759. [13] Q. U. Nguyen, T. A. Pham, C. D. Truong, and X. H. Nguyen, “A Study on the Use of Genetic Programming for Automatic Text Summarization,” Proceedings of 2012 Fourth International Conference on Knowledge and Systems Engineering, 2012, pp. 93-98. [14] Q. T. Lam, T. P. Pham, and D. H. Do, “Automatic Vietnamese Text Summarization with Model Sequence-to-sequence,” (in Vietnamese), Scientific Journal of Can Tho University, Special topic: Information Technology, pp. 125-132, 2017. [15] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” Proceedings of the 26th International Conference on Neural Information Processing Systems, vol. 2, 2013, pp. 3111-3119. [16] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” Proceedings of the 2014 Conference on EMNLP, 2014, pp. 1532-1543. [17] J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, “Bert: Pre-training of deep bidirectional transformers for language understanding,” Proceedings of NAACL-HLT 2019, 2019, pp. 4171-4186. [18] I. Turc, M. W. Chang, K. Lee, and K. Toutanova, “Well-Read Students Learn Better: On the Importance of Pre-training Compact Models,” arXiv:1908.08962 [cs.CL], 2019. [19] T. Pires, E. Schlinger, and D. Garrette, “How multilingual is Multilingual BERT?,” Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 4996-5001. [20] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. R. Miller, “Playing Atari with Deep Reinforcement Learning,” arXiv:1312.5602v1 [cs.LG], 2013. [21] C. Y. Lin, “Rouge: A package for automatic evaluation of summaries,” 2004. [Online]. Available: https://aclanthology.org/W04-1013.pdf. [Accessed July 11, 2021]. [22] Y. Kim, “Convolutional neural networks for sentence classification,” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1746-1751. [23] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to Sequence Learning with Neural Networks,” Proceedings of the 27th International Conference on Neural Information Processing Systems, vol. 2, 2014, pp. 3104-3112. [24] K. Cho, B. V. Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,” Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724-1734. [25] K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom, "Teaching machines to read and comprehend,” Proceedings of the 28th International Conference on Neural Information Processing Systems, vol. 1, 2015, pp. 1693-1701. [26] A. Radford, K. Narasimhan, T. Salimans, and I. Sutskever, “Improving Language Understanding by Generative Pre-Training,” 2018. [Online]. Available: https://s3-us-west-2.amazonaws.com/openaiassets/research-covers/language-unsupervised/language_understanding_paper.pdf. [Accessed April 23, 2021]. http://jst.tnu.edu.vn 215 Email: jst@tnu.edu.vn

Log In

Một Phương Pháp Kết Hợp Các Mô Hình Học Sâu Và Kỹ Thuật Học Tăng Cường Hiệu Quả Cho Tóm Tắt Văn Bản Hướng Trích Rút

Một Phương Pháp Kết Hợp Các Mô Hình Học Sâu Và Kỹ Thuật Học Tăng Cường Hiệu Quả Cho Tóm Tắt Văn Bản Hướng Trích Rút

Related Papers

RELATED PAPERS