« Home « Kết quả tìm kiếm

Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt


Tóm tắt Xem thử

- MỘT SỐ ĐẶC TRƯNG TRONG TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT.
- TÓM TẮT: Tóm tắt văn bản tự động đã được nghiên cứu từ những năm 1950 của thế kỷ 20.
- Tóm tắt tự động văn bản tiếng Việt mới chỉ được tập trung nghiên cứu từ những năm đầu của thế kỷ 21.
- Về cơ bản những nghiên cứu này là ngắn hạn, đơn lẻ và tập trung vào hướng trích rút qua việc sử dụng những đặc trưng của ngôn ngữ tiếng Anh để áp dụng vào mô hình tóm tắt tự động văn bản tiếng Việt.
- Phần lớn các kết quả thử nghiệm đều được thực hiện trên thể loại văn bản báo mạng điện tử.
- Tuy nhiên, cho đến nay, c hưa có nhiều nghiên cứu về đặc trưng ngôn ngữ của thể loại văn bản báo mạng điện tử tiếng Việt phục vụ cho bài toán trích rút câu.
- Bài báo này sẽ nghiên cứu một số đặc trưng riêng, trên cơ sở đó áp dụng đánh giá các đặc trưng đó trong trích rút câu phục vụ tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử..
- Từ khóa: tóm tắt văn bản tự động, tóm tắt văn bản tiếng Việt, báo mạng điện tử, từ khóa..
- Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng.
- Theo Mani và cộng sự [1] thì tóm tắt văn bản là quá trình trích lược chắt lọc những thông tin quan trọng nhất từ văn bản gốc để tạo ra một phiên bản giản lược sử dụng cho các mục đích hoặc nhiệm vụ khác nhau.
- Thông thường một văn bản tóm tắt có độ dài không quá nửa so với văn bản gốc..
- Có rất nhiều phương pháp tiếp cận về tóm tắt văn bản, qua đó cũng có rất nhiều cách phân loại các hệ thống tóm tắt văn bản, tuy nhiên, thông thường người ta hay sử dụng cách phân loại theo kết quả đầu ra (output).
- Đối với cách phân loại này thì có 02 phương pháp tóm tắt văn bản đó là tóm tắt theo phương pháp trích rút (Extract) và tóm tắt theo phương pháp tóm lược (Abstract)..
- Phương pháp tóm tắt trích rút là phương pháp tìm ra các đơn vị quan trọng nhất của văn bản đầu vào (đơn vị thường sử dụng là câu) sau đó lựa chọn các câu có liên quan đến các đơn vị quan trọng này để tạo ra văn bản tóm tắt..
- Đặc trưng của phương pháp này là xác định xem một câu của văn bản đầu vào có thuộc văn bản tóm tắt hay không, do vậy văn bản tóm tắt cũng thường tuân theo thứ tự nội dung của văn bản đầu vào.
- hướng tiếp cận dựa trên kết nối văn bản;.
- Phương pháp tóm lược xuất phát từ mục tiêu hiểu đầy đủ nội dung văn bản tóm tắt, sau đó tạo ra các câu mới cho bản tóm tắt theo tỉ lệ yêu cầu của người dùng.
- Phương pháp này rất giống với cách tóm tắt của con người nhưng về mặt thực tế rất khó để đạt được kết quả như tóm tắt thủ công.
- Một số hướng nghiên cứu đã dựa vào các đơn vị đặc trưng như từ, cụm từ, thành phần câu quan trọng để sinh ra các câu mới cho bản tóm tắt.
- dựa trên kỹ thuật cô đọng văn bản.
- Về lĩnh vực tóm tắt tự động văn bản tiếng Việt, với hướng tiếp cận tóm tắt trích rút có một số công trình như của Nguyễn Lê Minh và cộng sự [2], Hà Thành Lê và cộng sự [3], Đỗ Phúc và Hoàng Kiếm [4], Lê Thanh Hương và cộng sự [5], Nguyễn Thị Thu Hà [6], Nguyễn Nhật An [7].
- Hà Thành Lê và cộng sự [3] kết hợp một số phương pháp trích rút đặc trưng trong trích rút văn bản tiếng Việt như đặc trưng về tần suất từ TF×IDF, vị trí, từ tiêu đề, từ liên quan.
- Các đặc trưng được kết hợp tuyến tính với nhau để tính trọng số mỗi câu trong văn bản gốc.
- Lê Thanh Hương và cộng sự [5] sử dụng giải thuật PageRank cải tiến với hệ số nhân cho các từ xuất hiện trong tiêu đề văn bản để trích rút câu.
- Nguyễn Thị Thu Hà [6] sử dụng đặc trưng tần suất từ, vị trí câu và đặc trưng tiêu đề để trích rút câu quan trọng.
- Nguyễn Nhật An [7] trích rút câu dựa trên các đặc trưng vị trí câu, tần suất từ, độ dài câu, xác suất thực từ, thực thể có tên, dữ liệu số, tương tự với tiêu đề và câu trung tâm để tính trọng số câu..
- Có thể nhận thấy các đề tài trên có chung một số đặc điểm là phần lớn vẫn sử dụng đặc trưng chung của ngôn ngữ trong nội tại văn bản.
- Có một số nghiên cứu bước đầu đề cập tới tiêu đề văn bản như [5], [7], còn lại nhìn chung chưa khai thác được nhiều các thông tin liên quan khác của văn bản.
- Trong khi đó kết quả thực nghiệm phần lớn dựa trên dữ liệu là thể loại văn bản báo mạng điện tử, đây là một thể loại văn bản có tính đặc thù, có nhiều đặc trưng riêng, có nhiều thành phần mang thông tin khác nhau..
- Xuất phát từ thực tế đó, để nghiên cứu bài toán trích rút câu cho thể loại văn bản báo mạng điện tử tiếng Việt chúng tôi đã xây dựng một mô hình để giải quyết bài toán này dựa trên các đặc trưng riêng của thể loại báo mạng điện tử.
- Đối tượng nghiên cứu, xử lý của bài báo này là văn bản báo mạng điện tử tiếng Việt..
- ĐẶC TRƢNG CỦA VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT.
- Theo Nguyễn Thị Trường Giang [9] cho đến nay, báo mạng điện tử Việt Nam đã phát triển qua 3 giai đoạn..
- Giai đoạn 2005 đến nay đánh dấu sự trưởng thành về số lượng và chất lượng của báo mạng điện tử Việt Nam.
- Về ngôn ngữ, báo mạng điện tử ở Việt Nam đã hình thành lên những đặc điểm chính về mặt ngôn ngữ sau:.
- Ngôn ngữ báo mạng điện tử là ngôn ngữ đa phương tiên.
- Hiện nay có một số nghiên cứu của các nhà công nghệ thông tin thường nhầm lẫn Sa pô là phần tóm tắt bài báo của tác giả.
- Trong [12] tác giả nêu đoạn văn bản cần tóm tắt là cả bài báo và phần tóm tắt là đoạn mô tả phía dưới tiêu đề.
- Nguyễn Nhật An [7] cũng đề cập tới việc sử dụng bản tóm tắt của tác giả dưới tiêu đề bài báo để làm cơ sở đánh giá kết quả nghiên cứu.
- Qua nghiên cứu về đặc điểm của báo mạng điện tử, chúng tôi nhận thấy các từ khóa, từ gán nhãn (Tags) và các thực thể có tên, các cụm từ có trong câu tiêu đề, trong sa pô là những thành phần mang nhiều thông tin trong văn bản.
- Do vậy để trích xuất câu trong văn bản, chúng tôi thấy rằng cần phải nghiên cứu, đánh giá vai trò về mặt ngữ nghĩa của các đặc trưng trên đối với văn bản báo mạng điện tử..
- Từ khóa và nhãn trong báo mạng điện tử.
- Đó là một từ đóng vai trò quan trọng và có ý nghĩa trong việc thể hiện nội dung của một văn bản.
- “Từ khoá trên báo điện tử là một cụm từ gồm 4 đến 8 chữ tóm tắt nội dung chủ đề của bài viết, được các t ờ báo sử dụng nhiều nhất và là cụm từ thông dụng nhất trong việc trực tiếp dùng để tìm kiếm tin tức hằng ngày, về những vấn đề mang tính thời sự, xã hội, kinh tế, đời sống, giải trí, công nghệ… trong và ngoài nước.
- Từ khóa chính thích hợp sẽ giúp tác phẩm báo mạng điện tử nằm ở đầu trên bảng kết quả của các công cụ tìm kiếm như Google, Bing.
- Từ khóa chính sẽ được nhà báo lựa chọn từ nội dung bài viết.
- Một số công cụ gợi ý từ khóa thường được sử dụng là keywordtool.io, google trends..
- Thông thường, mỗi bài báo mạng điện tử sử dụng tối đa 5 tags, tối thiểu 3 tags.
- Như vậy rõ ràng từ khóa và từ gán nhãn có vai trò ngữ nghĩa rất quan trọng trong bài báo mạng điện tử..
- Thực thể có tên.
- Do vậy, các thực thể có tên người, địa danh, tổ chức,… sẽ đóng một vai trò quan trọng về ngữ nghĩa trong văn bản báo mạng điện tử.
- Nguyễn Nhật An [7] cũng đã chỉ ra vai trò quan trọng của thực thể có tên trong văn bản tiếng Việt thuộc thể loại tin tức.
- Trong [15] tác giả cũng đã sử dụng tiêu chí thực thể có tên xuất hiện 02 lần trở lên trong văn bản là thực thể có ngữ nghĩa quan trọng để trích rút câu..
- TRÍCH RÚT CÂU VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN TỪ KHÓA VÀ THỰC THỂ CÓ TÊN.
- Có hai vấn đề cần được xem xét đối với phương pháp tóm tắt văn bản theo hướng trích rút câu.
- Một là, xem xét sự phù hợp của từng đặc trưng trong bài toán tóm tắt văn bản tiếng Việt và lựa chọn tập đặc trưng phù hợp đối với văn bản tiếng Việt cần nghiên cứu.
- Trong bài báo này, để tính độ quan trọng câu chúng tôi dựa trên 03 đặc trưng là từ khóa chính, từ khóa nhãn (tags) và thực thể có tên, sau đó xác định các hệ số đặc trưng phù hợp.
- Đối với văn bản V:.
- S l , trong đó S i là câu thứ i trong văn bản có l câu..
- x n là tập các từ khóa.
- Giá trị ngữ nghĩa của từ gán nhãn y i trong câu được tính là β nếu từ khóa đó có trong câu, là 0 nếu từ gán nhãn không có trong câu..
- Giá trị ngữ nghĩa của thực thể có tên z i trong câu được tính là γ nếu từ khóa đó có trong câu, là 0 nếu thực thể có tên không có trong câu..
- Như vậy ta có thể coi α, β, γ là các hệ số đặc trưng về ngữ nghĩa của từ khóa, từ khóa nhãn và thực thể có tên trong văn bản V.
- Do thời gian thực nghiệm chưa được nhiều nên chúng tôi tạm thời lấy giá trị cho các hệ số này sau một số lần đối sánh kết quả với các hệ số khác nhau trên 50 văn bản mẫu là α = 2, β = 1.5, γ = 1..
- Trong bài báo có tập các từ khóa “Tổng bí thư”, “tiếp xúc”, “cử tri”;.
- Lưu đồ thuật toán trích rút câu sẽ được tiến hành như sau:.
- Với mỗi văn bản V:.
- Xác định tập từ khóa X..
- sử dụng công cụ tách từ cho từ khóa chính thu thập được trong văn bản..
- sử dụng công cụ tách từ cho tập từ khóa gán nhãn thu thập được trong văn bản..
- Xác định tập thực thể có tên Z.
- sử dụng công cụ nhận dạng thực thể có tên cho văn bản V b.
- Đối với mỗi văn bản xác định tập câu S.
- Sử dụng công cụ tách câu đối với văn bản V 5.
- Lựa chọn số câu theo tỉ lệ người dùng cần trích rút để sinh bản trích rút..
- ĐÁNH GIÁ KẾT QUẢ TÓM TẮT 4.1.
- Như đã trình bày ở trên, hiện nay kho ngữ liệu dành cho tóm tắt văn bản còn khá hạn chế, ít được chia sẻ trong cộng đồng.
- Có một số kho ngữ liệu chia sẻ trên mạng Internet tuy nhiên kho những ngữ liệu hiện nay chưa có từ khóa của văn bản nên không sử dụng được trong bài toán này.
- Đối với mỗi văn bản chúng tôi cũng xây dựng 01 bản trích rút giữ lại khoảng 30%, 01 bản trích rút giữ lại khoảng 60% số câu trong văn bản tương ứng là S30 và S60 để làm kết quả so sánh.
- Chúng tôi sử dụng chuyên gia là một nhà báo có kinh nghiệm để lựa chọn số câu trong mỗi văn bản.
- Do việc xây dựng tập văn bản tóm tắt của chuyên gia mất nhiều thời gian, công sức nên trong bài báo này chúng tôi sử dụng trên tập 100 văn bản..
- Để đánh giá độ chính xác của bản trích rút tự động, chúng tôi sử dụng phương pháp Precision and recall..
- Phương pháp đánh giá này được sử dụng phù hợp với các bản tóm tắt theo hướng trích rút câu qua việc so sánh giữa bản tóm tắt do hệ thống trích rút với bản tóm tắt do con người trích rút sử dụng độ đo chính xác (precision), triệu hồi (recall), các giá trị f- score..
- Đánh giá độ chính xác trên tập gồm 100 văn bản.
- Độ đo F 1 -score có kết quả khá tốt trong cả hai trường hợp, chứng tỏ vai trò ngữ nghĩa của các đặc trưng trên trong văn bản báo mạng điện tử..
- Tuy nhiên, kết quả cũng cho thấy đối với tỉ lệ trích rút cao cho kết quả chính xác cao hơn..
- Có sự khác biệt như sau: Bản trích rút của chuyên gia được lựa chọn đồng đều trong văn bản (các câu được chọn phân bố khá đều trong toàn bộ văn bản).
- bản trích rút do hệ thống lựa chọn có một số bài báo phân bố không đều, phần cuối nội dung bài báo thường ít được chọn..
- Bài báo đã đưa ra phương pháp tiếp cận tóm tắt trích rút đối với văn bản báo mạng điện tử dựa trên đánh giá độ quan trọng của từ khóa chính, từ khóa gán nhãn và thực thể có tên.
- Kết quả thu được từ thực nghiệm cho thấy vai trò của các đặc trưng này trong văn bản báo mạng điện tử và khẳng định đây là các tiếp cận có triển vọng trong việc trích rút câu đối với văn bản báo mạng điện tử..
- Trong thời gian tới chúng tôi sẽ nâng cao hiệu quả của phương pháp này bằng cách mở rộng tập văn bản thử nghiệm và xác định các tham số ngữ nghĩa α, β và γ qua học máy.
- Đồng thời chúng tôi cũng sẽ nghiên cứu việc sử dụng 3 đặc trưng này của văn bản báo mạng điện tử kết hợp với các đặc trưng chung của văn bản tiếng Việt đã được nghiên cứu trước đây..
- [4] Đỗ Phúc, Hoàng Kiếm, Rút trích ý chính từ văn bản tiếng Việt.
- [5] Lê Thanh Hương, Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt, Báo cáo tổng kết đề tài cấp KH và CN cấp bộ, Đại học Bách khoa Hà Nội, 2014..
- [6] Nguyễn Thị Thu Hà, Phát triển một số thuật toán tóm tắt văn bản tiếng Việt sử dụng phương pháp học bán giám sát, Luận án Tiến sỹ, Học viện Kỹ thuật quân sự, 2012..
- [7] Nguyễn Nhật An, Nghiên cứu, phát triển các kỹ thuật tự động tóm tắt văn bản tiếng Việt, Luận án Tiến sỹ Toán học, Viện Khoa học và Công nghệ Quân sự, 2015..
- [9] Nguyễn Thị Trường Giang, Báo mạng điện tử - những vấn đề cơ bản, Nhà xuất bản Chính trị Quốc gia, 2014..
- [12] Lâm Quang Tường, Phạm Thế Phi, Đỗ Đức Hào, Tóm tắt văn bản tiếng Việt tự động với mô hình sequence-to- sequence, Tạp chí Khoa học Trường Đại học Cần Thơ, pp .
- [13] Nguyễn Trí Nhiệm, Nguyễn Thị Trường Giang, Báo mạng điện tử - đặc trưng và phương pháp sáng tạo, Nhà xuất bản Chính trị Quốc gia, 2014..
- [15] Nguyễn Ngọc Duy, Phan Thị Tươi, Tóm tắt văn bản trên cơ sở phân loại ý kiến độc giả của báo mạng tiếng Việt, Tạp chí Phát triển KH&CN, Tập 19, số K

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt