« Home « Kết quả tìm kiếm

Tóm tắt văn bản tiếng Việt tự động với mô hình Sequence-to-Sequence


Tóm tắt Xem thử

- TÓM TẮT VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG VỚI MÔ HÌNH SEQUENCE-TO-SEQUENCE.
- Vietnamese text summarization with Sequence-to-Sequence Từ khóa:.
- Beam Search, học sâu, Sequence-to-sequence, tóm tắt văn bản.
- Beam Search, deep learning, Sequence-to-sequence, text summarization.
- In this paper, the Word2vec model was used to extract the specific characteristics of Vietnamese text for the Sequence to Sequence with Attention model to produce a sequence of words.
- TÓM TẮT.
- Học sâu là phương pháp học máy được nghiên cứu và sử dụng rộng rãi trong những năm gần đây, mở ra hướng đi mới cho các bài toán như xử lý ảnh, xử lý tiếng nói và xử lý ngôn ngữ tự nhiên.
- Bài báo tập trung nghiên cứu sử dụng học sâu cho bài toán tóm tắt văn bản tự động đối với tiếng Việt.
- Các hướng tiếp cận trước đây như: thống kê, máy học, phân tích ngôn ngữ… đã thành công trên những cấp độ và mục đích tóm tắt khác nhau.
- Trong bài báo này, chúng tôi sử dụng mô hình Word2vec để rút trích những đặc trưng riêng của văn bản tiếng Việt, phục vụ cho mô hình Sequence to sequence with Attention nhằm tạo kết quả đầu ra là chuỗi các từ.
- Cuối cùng kết quả được chọn lọc lại bằng giải thuật Beam Search và sinh ra câu tóm tắt.
- Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên tập dữ liệu hơn hai mươi bảy triệu từ thu thập từ các trang báo trong nước.
- Kết quả thu được là các câu tóm tắt phản ánh đúng nội dung văn bản.
- Tóm tắt văn bản là quá trình rút trích những thông tin quan trọng nhất từ một văn bản để tạo ra phiên bản ngắn gọn, xúc tích mang lại đầy đủ lượng thông tin của văn bản gốc kèm theo đó là tính đúng đắn về ngữ pháp và chính tả.
- Bản tóm tắt phải giữ được những thông tin quan trọng của toàn bộ văn bản chính.
- Bên cạnh đó, bản tóm tắt cần phải có bố cục chặt chẽ có tính đến các thông số như độ dài câu, phong cách viết và cú pháp của văn bản..
- Nhìn chung, tóm tắt văn bản có hai hướng tiếp cận: tóm tắt kiểu trích chọn-“extraction” và tóm tắt kiểu tóm lược ý -“abstraction”.
- Phương pháp.
- “extraction” làm công việc chọn ra một tập con của những từ đã có, những lời nói hoặc những câu trong văn bản gốc để đưa vào khuôn mẫu tóm tắt.
- Ngược lại, phương pháp “abstraction” xây dựng một biểu diễn ngữ nghĩa bên trong và sau đó sử dụng kĩ thuật xử lý ngôn ngữ để tạo ra một bản tóm tắt gần gũi hơn so với những gì con người có thể tạo ra.
- Bản tóm tắt như vậy có thể chứa các từ không có trong bản gốc.
- Nghiên cứu về phương pháp “abstraction”.
- Kỹ thuật tóm tắt phổ biến và gần đây nhất sử dụng phương pháp thống kê hoặc các kĩ thuật xử lý ngôn ngữ.
- Các từ có tần số cao, từ khóa chuẩn, phương pháp tiêu đề, phương pháp vị trí được sử dụng làm trọng số của câu.
- Đối với hướng tiếp cận cho tóm tắt đơn văn bản ta có các phương pháp như:.
- Đối với hướng tiếp cận cho tóm tắt đa văn bản: Phương pháp dùng template (McKeown and Radev gom cụm chủ đề và hợp nhất thông tin (McKeown, 1999, Barzilay et al., 1999), gom cụm (cluster-based) với MMR, gom cụm với lý thuyết đồ thị, kích hoạt lan truyền trên đồ thị, phương pháp dựa trên trọng tâm..
- Các nghiên cứu trước đây cho tóm tắt văn bản tiếng Việt như: “Một giải pháp tóm tắt văn bản tiếng Việt tự động” của nhóm tác giả Trương Quốc Định và Nguyễn Quang Dũng (2012) nghiên cứu về các giải thuật thống kê dựa trên từ vựng để xác định độ tương tự giữa các câu, “Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản tiếng việt”.
- sử dụng mô hình đồ thị có trọng số và trọng số của câu ở mỗi nút….
- Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của các mô hình huấn luyện end-to-end đã tạo ra hướng đi mới để giải quyết bài toán tóm tắt văn bản tự động.
- Cụ thể bài báo này đề cặp đến tóm tắt văn bản tự động với mô hình Sequence-to- Sequence (Sutskever et al., 2014).
- Dựa vào ý tưởng sinh ra câu mới từ câu đã có của mô hình Sequence- to-Sequence, chúng tôi xây dựng mô hình rút trích những thông tin quan trọng của cả đoạn văn, thu gọn lại thành một câu tóm tắt mang đầy đủ thông tin của đoạn văn.
- bên cạnh đó, phối hợp với các phương pháp xử lý ngôn ngữ tự nhiên như tách từ, loại bỏ dấu câu… để tinh chỉnh và xử lý tiếng Việt..
- 2 TÓM TẮT VĂN BẢN TỰ ĐỘNG VỚI MÔ HÌNH SEQUENCE TO SEQUENCE.
- Quá trình tóm tắt văn bản tự động được huấn luyện end-to-end với mô hình Sequence-to- sequence with Attention (Hình 1) (Nallapati et al., 2016).
- Tại bước encoder, đầu vào của Recurrent Neural Networks (RNN) là các vector được tạo ra bằng cách mã hoá chuỗi từ với mô hình word embedding.
- Khi decoder, sử dụng một RNN để sinh ra chuỗi từ mới dựa vào chuỗi đầu vào và các từ được sinh ra phía trước.
- Trong mô hình tóm tắt văn bản tự động, thay vì tìm ra xác suất lớn nhất của mỗi từ sinh ra tại bước decoder, chúng ta tạo ra danh sách các từ ứng viên tại mỗi bước giải mã.
- Sau đó, sử dụng giải thuật Beam Search để lựa chọn các từ ứng viên và kết nối danh sách các từ ứng viên đó lại tạo thành một câu có điểm số cao nhất tạo ra chuỗi tóm tắt..
- Hình 1: Tóm tắt văn bản tự động sử dụng mô hình Sequence-to-Sequence with Attention (1) Word Embedding.
- (1) Mô hình Word Embedding.
- Mục tiêu của word embedding là mã hoá từ ngữ tiếng Việt thành những vector đặc trưng mang lại một ý nghĩa ở mức độ nào đó cho từ và nó là phương pháp biểu diễn dữ liệu cho mô hình tóm tắt văn bản tự động.
- Ngoài cách biển diễn theo mô hình túi từ (Bag of word), xây dựng dựa trên số lượng từ được sử dụng trong bài toán Text Classification, chúng ta có hai phương pháp mới là Word2vec (Rong, 2016) và Glove.
- Ở đây, chúng tôi tập trung đề cập đến mô hình Word2vec.
- Word2vec là một phương thức biểu diễn mỗi từ thành một vector có các phần tử mang giá trị diễn tả mối quan hệ giữa từ này với từ khác bằng cách sử dụng một mạng nơ-ron với duy nhất một trạng thái ẩn.
- Hai mô hình trên giống nhau đều sử dụng mạng nơ-ron nhưng chỉ khác nhau ở đầu vào và đầu ra.
- Đối với Continuous Skip-gram model đầu vào chỉ là một one-hot vector của một từ và đầu ra là các vector biểu diễn quan hệ với các từ còn lại.
- Từ hidden layer ra được output layer, ma trận trọng số ′ được sử dụng để bỏ phiếu (scoring) cho các từ trong từ điển.
- Softmax function được sử dụng để thu về.
- Trong một mô hình ngôn ngữ việc tính xác suất.
- được xấp xỉ bằng cách sử dụng mô hình Makov bậc N:.
- Chính vì thế, chúng ta cần có một mô hình có thể tính được.
- từ đó ý tưởng mô hình Recurrent Neural Network (RNN) (Cho et al., 2015) ra đời.
- là kết quả của mô hình word embedding để xây dựng một chuỗi đầu ra.
- là output tại thời điểm t, chứa xác suất của các từ trong bộ từ vựng..
- Khi huấn luyện RNN chúng ta sử dụng kĩ thuật Back-Propagation Through Time (BPPTT) để cộng dồn gradient của các bước trước lại với nhau.
- Mô hình này được giới thiệu bởi Hochreiter &.
- LSTM sử dụng ba cổng sigmoid và một cổng tanh thay cho một nơ-ron của RNN được mô tả ở Hình 3.
- (3) Sequence-to-sequence with Attention Mục đích của việc tóm tắt văn bản là chuyển từ một văn bản gốc thành một văn bản có độ dài ngắn hơn và mang đầy đủ ý nghĩa.
- Đó chính là ý tưởng cơ bản của mô hình Sequence-to-Sequence (seq2seq).
- Cụ thể mô hình seq2seq là mở rộng của mô hình “encoder-decoder”.
- (Cho et al., 2014), đầu tiên sử dụng một mô hình mã.
- Mỗi lần các chuỗi đầu vào được mã hoá, mô hình seq2seq tạo ra một chuỗi mục tiêu sử dụng một bộ giải mã (decoder).
- Các từ được tạo ra tuần tự bằng cách điều chỉnh trên biểu diễn đầu vào và trên các từ được tạo ra trước đó.
- Sau đây là cụ thể về mô hình Sequence-to-Sequence:.
- RNN decoder thường được huấn luyện để hoạt động như các mô hình ngôn ngữ có điều kiện.
- Trong việc tính toán xác suất này, trạng thái đại diện cho các từ đã được huấn luyện trước từ mục tiêu và được thiết lập thành một số hàm của biến x.
- Mô hình hoàn chỉnh (bao gồm encoder) được huấn luyện, tương tự như mô hình ngôn ngữ nơ ron, cần phải tối thiểu hóa hàm lỗi (cross-entropy loss) tại mỗi lần lặp trong khi việc điều chỉnh những từ mục tiêu đã được tạo ra trước đó trong tập dữ liệu huấn luyện.
- Đó là, mô hình được huấn luyện để tối thiểu hóa:.
- Trong mô hình seq2seq cơ bản, mỗi đầu vào phải.
- Trong mô hình Sequence-to-Sequence, bộ giải mã được điều khiển bởi một câu đã được mã hoá để tạo ra một câu mới.
- Thay vì tính xác suất của từ kế tiếp, chúng ta sử dụng cách tạo ra điểm số (không phải xác suất) cho các chuỗi câu.
- Thuật toán Beam Search sử dụng trong mô hình Sequence-to-Sequence cụ thể gồm 3 bước chính:.
- Search-Based Loss: sử dụng một hàm tính điểm để tính tổng điểm của mỗi chuỗi..
- Backward: (Merge Sequences) sử dụng lan truyền ngược để tối ưu hàm lỗi của mô hình RNN..
- Mô hình Sequence- to-Sequence chuẩn thực hiện lan truyền ngược để tối ưu hàm lỗi thông qua các từ mục tiêu.
- tuy nhiên ở đây chúng ta có thêm một gradient cho các từ dự đoán sai trước đó.
- Để lan truyền ngược hàm lỗi thông qua một RNN, chúng ta sử dụng một thủ tục đệ quy BRNN – tại mỗi bước thứ , nó chứa gradients của bước kế tiếp và lỗi trong tương lai đối với .
- Giải thuật Beam Search sử dụng cho mô hình Sequence-to-Sequence được tóm tắt ở Hình 5:.
- Hình 5: Sequence-to-Sequence as Beam Search Optimization [8].
- Để xây dựng thành công mô hình trên tập dữ liệu tiếng Việt, trong bài báo này, chúng tôi thu thập các đoạn văn bản lấy từ các trang báo trực tuyến ở Việt Nam (Hình 6).
- Với đoạn văn bản cần tóm tắt là cả.
- bài báo và phần tóm tắt là đoạn mô tả phía dưới tiêu đề..
- Để sử dụng mô hình ta cần chuyển tập dữ liệu tiếng Việt về dạng từ đơn, từ ghép bằng gói công cụ vnTokenizer của Hong Phuong L.
- (2008), loại bỏ các dấu câu, giữ lại dấu chấm để phân biệt các câu, chuyển số về chữ và sau đó chuyển văn bản về dạng nhị phân..
- 3.2 Huấn luyện mô hình.
- Chúng tôi sử dụng thư viện TensorFlow để xây dựng tập dữ liệu Word2vec và huấn luyện mô hình Sequence-to-Sequence with Attention cho bài toán tóm tắt văn bản tiếng Việt tự động.
- Chúng tôi sử dụng Gradient Descent Optimizer với learning rate giảm từ 0,15 đến 0,000015 để tối thiểu hàm lỗi và Beam Search với độ rộng K=5 để sinh ra câu..
- Dưới đây là biểu diễn của hàm lỗi khi huấn luyện mô hình Sequence-to-Sequence (Hình 7)..
- Phương pháp chính để xác định độ chính xác của mô hình tóm tắt văn bản là dựa vào ý nghĩa bên trong của đoạn văn.
- Ở đây, chúng tôi sử dụng phương pháp ROUGE (Svore et al., 2007) để đánh giá độ chính xác của mô hình.
- Số điểm ROUGE-n của một bản tóm tắt được xác định như sau:.
- lớn nhất có trong kết quả tóm tắt và bản tóm tắt tham khảo, là số lượng n-grams có trong bản tóm tắt tham khảo.
- 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Sử dụng mô hình Sequence-to-Sequence with Attention mở ra một hướng đi mới cho bài toán tóm tắt văn bản tự động.
- Bên cạnh đó, để cải thiện mô hình chúng ta cần xây dựng một tập đầu vào Word2vec có độ chính xác cao hơn nữa, thể hiện rõ mối liên hệ giữa các từ hơn nữa.
- Chính vì thế, việc chuẩn bị tập dữ liệu lớn và phong phú về mặt từ vựng là vô cùng cần thiết cho một mô hình tóm tắt văn bản tự động tiếng Việt..
- Sequence to Sequence Learning with Neural Networks – In arXiv:1409.3215v3 [cs.CL]..
- “Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản tiếng Việt”.
- Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond – In arXiv cs.CL]..
- Sequence-to-Sequence Learning as Beam-Search Optimization.
- “Một giải pháp tóm tắt văn bản tiếng Việt tự động”