Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012
Một giải pháp tóm tắt văn bản tiếng Việt tự động
Trương Quốc Định
Nguyễn Quang Dũng
Khoa CNTT-TT
Đại học Cần Thơ
Cần Thơ, Việt Nam
tqdinh@cit.ctu.edu.vn
Khoa Nông nghiệp & Sinh học ứng dụng
Đại học Cần Thơ
Cần Thơ, Việt Nam
nqdung@ctu.edu.vn
Tóm tắt— Trong bài báo này chúng tôi đề xuất mô hình tóm
tắt văn bản tiếng Việt tự động. Văn bản được biểu diễn dưới
dạng đồ thị, mỗi đỉnh trong đồ thị biểu diễn một câu trong văn
bản, các cạnh nối giữa các đỉnh biểu diễn sự tương tự về ngữ
nghĩa giữa hai đỉnh (câu). Giá trị tương tự được biểu diễn dưới
dạng trọng số của các cạnh. Chúng tôi sử dụng 3 thuật toán
thống kê dựa trên từ vựng để tính độ tương tự câu là Jaro,
Contrast Model và Jaccard. Độ quan trọng của đỉnh (câu)
được tính bởi thuật toán PageRank, một giải thuật toán học
dựa trên đồ thị, được tùy biến để tích hợp độ tương tự câu. Hệ
thống sẽ tự động chọn các câu quan trọng nhất (mặc định là
25% tổng số câu) để đưa vào kết quả tóm tắt. Để kiểm chứng
tính chính xác của mô hình đề xuất, chúng tôi so sánh kết quả
tóm tắt tự động với kết quả tóm tắt của chuyên gia vì thế dữ
liệu thực nghiệm sử dụng là khá khiêm tốn (gồm 5 văn bản
thuộc các chủ đề khác nhau). Kết quả tóm tắt của hệ thống có
độ tin cậy cao vì được đánh giá bởi tập dữ liệu đánh giá được
tổng hợp từ 12 nhà khoa học uy tín. Kết quả cho thấy việc kết
hợp các thuật toán thống kê với thuật toán xếp hạng dựa trên
đồ thị PageRank có tích hợp độ tương tự câu cho độ chính xác
khá cao, trong đó thuật toán Contrast model và Jaccard cho
kết quả tóm tắt tốt nhất (51.5 và 52%). Ngoài ra, chúng tôi
cũng đã thực nghiệm trên tập các bài viết thu thập từ các trang
báo mạng với kết quả khả quan.
(neural networks), phương pháp Lôgíc mờ (fuzzy logic),
phương pháp hồi quy toán học (Mathematical regression)
[5], phương pháp dựa trên truy vấn (Query based).
Trong 50 năm qua đã có nhiều công trình nghiên cứu tạo
tóm tắt tự động văn bản tiếng Anh, Nhật, Hoa. Một số công
trình tiêu biểu: Edmundson [6] đã thử nghiệm 3 tiêu chí đánh
giá mới cho các câu để tạo ra tóm tắt tự động, hai trong số đó
sử dụng cấu trúc văn bản; công trình của Marcu [7] thì quan
tâm đến việc sử dụng phương pháp phân tích cấu trúc diễn
ngôn (“discourse parsing” hoặc “rhetorical parsing”) để tạo
tóm tắt tự động; công trình của Radev và cộng sự [8] sử dụng
khái niệm “trọng tâm” (centroid) để tóm tắt đa văn bản bằng
cách trích chọn; công trình của Mihalcea [9] thì sử dụng
thuật toán dựa trên đồ thị để tạo tóm tắt tự động.
Đối với các nghiên cứu về tóm tắt tự động văn bản tiếng
Việt, gần đây cũng có một số công trình nghiên cứu được
công bố như: Nguyễn Lê Minh tóm tắt văn bản tiếng Việt
bằng phương pháp phân cụm SVM (Support Vector
Machine) [10]; Đỗ Phúc và cộng sự rút trích nội dung chính
của khối thông điệp trên diễn đàn thảo luận bằng phương
pháp gom cụm đồ thị [11]; Nguyễn Trọng Phúc và cộng sự
thì trình bày phương pháp tóm tắt văn bản tiếng Việt dựa
trên cấu trúc diễn ngôn [12]. Tuy nhiên, kết quả của các
nghiên cứu này vẫn chưa được đánh giá cụ thể. Đồng thời
một số công cụ có sẵn thì không thích hợp cho tiếng Việt nên
kết quả tóm tắt rất thấp, không đáp ứng được yêu cầu người
dùng, ví dụ như công cụ Autosummarizer của phần mềm
Microsoft Word. Vì vậy trong nghiên cứu này chúng tôi đề
xuất phương pháp tóm tắt văn bản tiếng Việt tự động theo
hướng tiếp cận rút trích các câu quan trọng của văn bản để
đưa vào tóm tắt dựa trên mô hình đồ thị.
Trong phần 2 của bài báo chúng tôi trình bày mô hình
tóm tắt văn bản bao gồm các nội dung: quản lý đầu vào; tính
độ tương tự; tính điểm xếp hạng. Dữ liệu thực nghiệm,
phương pháp đáng giá và kết quả thực nghiệm được giới
thiệu trong phần 3. Phần 4 trình bày kết luận và kiến nghị.
Từ khóa : tóm tắt, đồ thị, độ đo tương đồng, PageRank
GIỚI THIỆU
Tóm tắt văn bản [1] đã trở thành một công cụ quan trọng
và hữu ích để hỗ trợ và trích chọn thông tin văn bản trong
thời đại thông tin phát triển nhanh chóng ngày nay. Tóm tắt
văn bản thủ công (được thực hiện bởi con người) đôi khi là
một nhiệm vụ khó khăn khi phải làm việc với một văn bản
lớn, chứa nhiều thông tin.
Nếu phân loại tóm tắt theo hướng tiếp cận, tóm tắt văn
bản có thể được phân thành các loại như: tóm tắt trích chọn
(extractive) và tóm tắt trừu tượng (abstractive). Hướng tiếp
cận tóm tắt trừu tượng [2] có nghĩa là hệ thống cố gắng hiểu
được ý chính của tài liệu rồi sau đó diễn giải chúng dưới
dạng ngôn ngữ tự nhiên. Tóm tắt trích chọn [3] được xây
dựng bằng cách trích xuất các đơn vị văn bản quan trọng
(câu hoặc đoạn văn) từ văn bản gốc, dựa trên phân tích
từ/cụm từ, tần số, vị trí hoặc các từ gợi ý để xác định tầm
quan trọng của các đơn vị và từ đó trích xuất các đơn vị quan
trọng nhất như là tóm tắt.
Về phương pháp tóm tắt, hiện nay trên thế giới đã có
nhiều công trình nghiên cứu áp dụng các phương pháp tóm
tắt khác nhau [4]: phương pháp TF-IDF , phương pháp phân
cụm (Cluster based), phương pháp tiếp cận máy học, phương
pháp phân tích ngữ nghĩa tiềm ẩn (LSA), mạng nhân tạo
MÔ HÌNH TÓM TẮT
Hình 1 trình bày mô hình tóm tắt văn bản tự động được
chúng tôi đề xuất.
Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012
B.
Tính độ tương tự
Trong nghiên cứu của chúng tôi, văn bản được biểu diễn
bằng đồ thị. Mỗi đỉnh trong đồ thị tương ứng với một câu
trong văn bản, mỗi cạnh nối hai đỉnh trong đồ thị biểu diễn
mối liên hệ giữa hai câu. Trọng số của mỗi cạnh chính là giá
trị độ tương tự (value of similarity) giữa hai câu. Độ tương tự
(trọng số của cạnh) được tính bằng một trong ba phương
pháp: Jaro, Constrast Model và Jaccard.
1) Khoảng cách Jaro [14]: là một độ đo tương tự giữa
hai chuỗi. Khoảng cách Jaro dj của giữa câu s1 và câu s2
được tính như sau:
Hình 1. Mô hình tóm tắt văn bản tự động
A.
Quản lý đầu vào
Văn bản đầu vào có định dạng *.txt hoặc *.doc. Văn bản
sẽ được đưa qua bộ lọc để loại bỏ từ dừng (stopwords),
những từ này mang ít nghĩa hoặc không có nghĩa, loại bỏ các
ký tự không phải chữ cái hoặc chữ số. Quản lý đầu vào còn
có nhiệm vụ tách văn bản thành các câu và các từ riêng lẻ để
sử dụng cho mục đích tính toán sau này.
1) Tách câu và tách từ: trong nghiên cứu này chúng tôi
sử dụng công cụ JVnTextPro do nhóm nghiên cứu về xử lý
ngôn ngữ tự nhiên của Khoa Công nghệ - Trường Đại học
Quốc gia Hà Nội nghiên cứu và xây dựng [13]. Chức năng
chính của gói này như sau:
Đoạn văn bản → Gán nhã câu → Tách từ → Gán nhãn từ
loại → Từ loại
Chúng tôi sử dụng JVnTextPro cho giai đoạn lập chỉ mục
cho văn bản vì công cụ này có thể nhận biết được các danh
từ riêng, có thể nhận biết được từ đơn và từ ghép và có độ
chính xác trung bình khi tách từ khá cao (khoảng 94,5%).
Chúng tôi sử dụng mô hình túi từ (bag of words) để biểu
diễn văn bản, chính nhờ việc phân biệt được từ đơn và từ
ghép mà ngữ nghĩa của văn bản không mất đi hoàn toàn khi
sử dụng mô hình này.
2) Loại bỏ từ dừng (stopwords): Stopwords trong lĩnh
vực khoa học máy tính được định nghĩa là một tập hợp các
từ xuất hiện rất phổ biến trong văn bản nhưng lại không cần
thiết cho phân tích ngôn ngữ học, hoặc là xuất hiện rất ít lần
trong tập ngữ liệu nên cũng không đóng góp nhiều về mặt ý
nghĩa. Vì là các từ không mang nhiều ý nghĩa nên có thể
loại bỏ khỏi văn bản một cách an toàn. Một nguyên nhân
cần loại bỏ các từ có tần suất xuất hiện cao nhưng lại không
mang nhiều ý nghĩa là vì sự tồn tại của các từ này có thể làm
sai lệch kết quả khi phương pháp chúng tôi đề xuất có dựa
trên việc phân tích tần suất của từ. Ví dụ các từ như “như
vậy”, “sau đó”, “một số”, “chỉ”, … là những từ sẽ được loại
bỏ, chẳng những không ảnh hưởng đến kết quả cuối cùng
mà còn có thể tăng độ chính xác. Chúng tôi sử dụng danh
sách gồm 570 stopwords, được đề xuất bởi [13].
(1)
trong đó m là số từ giống nhau, t là 1/2 số bước chuyển
(transpositions).
Phép chuyển vị trí sẽ được thực hiện khi hai từ giống
nhau trong hai câu s1 và s2 có khoảng cách không lớn hơn giá
trị:
(2)
Mỗi từ trong câu s1 được so sánh với tất cả các từ trong
câu s2. Transpositions được định nghĩa là số lượng từ giống
nhau giữa hai câu (nhưng thứ tự trong chuỗi khác nhau) chia
cho 2.
2) Mô hình tương phản (Contrast model): Chúng tôi sử
dụng mô hình tương phản của Tversky [15] để tính độ tương
tự.
s(A, B) = α*g(A∩B) – β*g(A-B) – �*g(B-A)
(3)
Công thức ở trên có thể được sử dụng để tính độ tương tự
giữa hai câu A và B. Trong đó g(A∩B) biểu diễn cho các từ
chung giữa A và B, g(A-B) biểu diễn cho các từ riêng của A,
g(B-A) biểu diễn cho các từ riêng của B. α, β, γ trọng số
được xác định trong quá trình thử nghiệm thuật toán.
3) Hệ số Jaccard: Hệ số tương tự Jaccard [16] là một độ
đo tương tự của các tập hợp dựa trên phương pháp thống kê.
Chúng tôi sử dụng hệ số này để đo độ tương tự giữa hai câu
A và B như sau:
s(A, B) =
(4)
C.
Tính điểm xếp hạng
Chúng tôi sử dụng thuật toán thuật toán PageRank [17]
để tính điểm xếp hạng (độ quan trọng) các đỉnh trong đồ thị.
Tuy nhiên, thuật toán PageRank gốc được áp dụng trên đồ
thị có hướng được chúng tôi hiệu chỉnh để có thể áp dụng
trên đồ thị vô hướng. Thuật toán PageRank sẽ được áp dụng
Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012
trên đồ thị vô hướng có trọng số biểu diễn văn bản, trong đó
trọng số của cạnh nối các đỉnh là độ tương tự của hai câu
được biểu diễn bởi hai đỉnh tương ứng. Thuật toán xếp hạng
PageRank thực hiện các lần lặp để cập nhật giá trị xếp hạng
cho các đỉnh trong đồ thị. Quá trình lặp sẽ kết thúc khi lỗi
hội
tụ
đạt
dưới
ngưỡng
định
trước
(STANDARD_ERROR_THRESHOLD) hoặc là số lần lặp
đã vượt quá giá trị định sẵn (tỷ lệ với số đỉnh của đồ thị). Giá
trị lỗi được tính là độ lệch chuẩn của các giá trị xếp hạng mới
và cũ của các đỉnh trong đồ thị. Ngoài việc phụ thuộc vào số
lượng các cạnh vào và cạnh ra của các đỉnh trong đồ thị đã
được xây dựng ở thành phần tính độ tương tự, do đây là đồ
thị có trọng số nên trọng số cạnh cũng sẽ được tích hợp vào
mô hình tính điểm xếp hạng của PageRank như sau (trong đó
WATi là trọng số cung nối đỉnh A và đỉnh Ti):
lượng cũng không nhiều và không phong phú về chủ đề. Đa
số các bài viết được thu thập thuộc chuyên mục “Tâm sự” và
“Bạn đọc” của hai tờ báo điện tử trên.
PR(A) = 0.25 + 0.85 * (WAT1 * PR(T1)/C(T1) + … + WATn *
PR(Tn)/C(Tn))
(5)
BẢNG 2. CÁC NHÀ KHOA HỌC THAM GIA ĐÁNH GIÁ HỆ THỐNG
THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Phương pháp tóm tắt mà chúng tôi đề xuất trong nghiên
cứu này là rút trích các câu quan trọng nhất trong văn bản để
đưa vào tóm tắt. Khi đã xác định được danh sách các câu
quan trọng nhất (mặc định là 25% số câu của văn bản),
chúng tôi sẽ thực hiện sắp xếp các câu này theo thứ tự xuất
hiện trong văn bản để có được tóm tắt của văn bản.
Để đánh giá độ tốt của giải pháp đề xuất, chúng tôi đã
thực hiện đánh giá theo hai cách: 1- Thu thập các đoạn văn
bản thô thuộc nhiều chủ đề khác nhau. Chọn lựa cộng tác
viên tham gia tóm tắt các văn bản đã được thu thập ở bước
trước, so sánh kết quả tóm tắt bởi các cộng tác viên và của hệ
thống; 2- Thu thập các bài viết trên các trang báo điện tử
theo tiêu chí các bài viết này phải được tóm tắt theo cách sử
dụng các câu văn trong nội dung văn bản. Thực hiện đối
chiếu tóm tắt của hệ thống với tòm tắt của văn bản thu thập.
D.
Dữ liệu thực nghiệm
Dữ liệu thực nghiệm dùng cho phương pháp đánh giá thứ
nhất là 5 đoạn văn bản có độ dài khác nhau và thuộc các chủ
đề khác nhau. Do cần nhờ đến các cộng tác viên thực hiện
tóm tắt các đoạn văn bản để so khớp nên số lượng mẫu thực
nghiệm cho phương pháp này là nhỏ. Chủ đề và số lượng câu
của mỗi mẫu kiểm thử được cho trong Bảng 1.
BẢNG 1. DỮ LIỆU THỰC NGHIỆM CHO PHƯƠNG PHÁP 1
Tên văn bản
Nhiều chuyên gia muốn Apple thu hồi
Iphone4
5 người mất tích trong bảo đã được tìm
thấy
Barca tăng cường chất thép cho cánh
trái
Dự án LMF
Lão ngư dân và biển cả
Chủ đề
Công nghệ
Tổng số câu
27
Xã hội
30
Thể thao
18
Kỹ thuật
Văn
học
nghệ thuật
18
78
E.
Phương pháp đánh giá
1) Cách 1
Dữ liệu dùng để đánh giá hiệu quả chương trình trong
cách 1 này là các bản tóm tắt được thực hiện thủ công do các
nhà khoa học thực hiện trên 5 văn bản dùng để thực nghiệm
như đã đề cập ở mục A của phần III (Bảng 1). Mặc dù kết
quả tóm tắt từ mỗi nhà khoa học có độ tin cậy khá cao, tuy
nhiên để đảm bảo tính khách quan của kết quả tóm tắt, chúng
tôi tiến hành thu thập tóm tắt từ 12 nhà khoa học (Bảng 2)
khác nhau và việc tóm tắt được thực hiện độc lập.
Stt
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Họ tên
GS.TS. Võ Thị Gương
PGS.TS. Nguyễn Minh Thủy
PGS.TS. Lê Thị Mến
GS.TS. Nguyễn Văn Thu
TS. Nguyễn Thị Hồng Nhân
TS. Nguyễn Thị Thu Nga
TS. Lê Vĩnh Thúc
ThS. Trương Xuân Việt
ThS. Nguyễn Văn Ây
ThS. Nguyễn Thu Tâm
ThS. Lê Minh Lý
ThS. Phạm Thị Phương Thảo
Độ chính xác của kết quả tóm tắt được định nghĩa như
sau: (số lượng câu trùng lắp giữa kết quả thuật toán và kết
quả chuyên gia) / (số lượng câu tóm tắt cần chọn). Chúng tôi
đề xuất phương pháp đo như sau: sử dụng phương pháp bầu
chọn (voting) để chọn ra một chuẩn vàng (gold-standard).
Gold-standard là một tập hợp gồm các câu nằm trong tóm tắt
được nhiều người bầu chọn nhất. Gọi result (i) là kết quả tóm
tắt văn bản thứ i, công thức để tính độ chính xác (precision)
của mỗi phương pháp áp dụng trên văn bản thứ i như sau:
(6)
Tóm tắt của các nhà khoa học không phải lúc nào cũng
trùng khớp với nhau, vì thế chúng tôi đề xuất sẽ lựa chọn các
câu nào được nhiều nhà khoa học chọn nhất sẽ được đưa vào
tóm tắt và được xem như là tóm tắt của các nhà khoa học. Tỷ
lệ thống nhất giữa các nhà khoa học cao nhất là 67% và thấp
nhất là 55%.
Chúng tôi cho hệ thống thực hiện tóm tắt trên 3 độ đo đã
giới thiệu ở mục B phần II. Giá trị các tham số sử dụng cho
từng độ đo được cho trong bảng 3.
BẢNG 3. GIÁ TRỊ THAM SỐ THỰC NGHIỆM
Tên phương pháp
Dữ liệu thực nghiệm cho phương pháp thứ hai là 25 bài
viết được thu thập từ các trang báo mạng như Vietnamnet.vn
và vnexpress.net. Do các bài viết phải đáp ứng yêu cầu là có
tóm tắt được rút trích từ nội dung của bài viết nên thực tế số
Email
vtguong@ctu.edu.vn
nmthuy@ctu.edu.vn
ltmen@ctu.edu.vn
nvthu@ctu.edu.vn
nthnhan@ctu.edu.vn
nttnga@ctu.edu.vn
lvthuc@ctu.edu.vn
txviet@ctu.edu.vn
nvay@ctu.edu.vn
nttamty@ctu.edu.vn
lmly@ctu.edu.vn
ptpthao@ctu.edu.vn
Phương pháp Jaro
Phương pháp Contrast Model
Phương pháp Jaccard
Thuật toán tính Threshold (xây dựng
độ tương tự
cạnh nối giữa các
đỉnh)
Jaro
0.65
Contrast Model
5.0
Jaccard
0.25
Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012
Phương pháp
precision (%)
Thực hiện so sánh kết quả đạt được khi sử dụng các độ
đo khác nhau, chúng tôi có thể kết luận rằng độ đo Jaccard
cho kết quả tốt nhất nhưng không khác biệt nhiều so với mô
hình tương phản (contrast model), xem hình 2.
53
52
51
50
49
48
47
46
45
44
43
Phương pháp Jaro
Phương pháp
Contrast Model
Phương pháp
Jaccard
Hình 2. Kết quả thực nghiệm theo cách 1
Chúng tôi cũng thực nghiệm ảnh hưởng của quá trình
tiền xử lý đối với phương pháp đề xuất. Thật vậy, để có thể
tính toán chính xác độ tương đồng giữa các câu đòi hỏi quá
trình tách từ phải có khả năng nhận biết đúng các từ được sử
dụng trong ngữ cảnh của câu. Có nghĩa là cần phân biệt được
từ đơn và từ ghép. Vì bản chất tiếng việt có nhiều từ ghép
nên không thể đơn giản sử dụng khoảng trắng để tách từ, kết
quả minh họa bởi hình 3 cho thấy rõ điều này.
Có sẵn
Tên phương pháp
Độ chính xác (%)
Phương pháp Contrast Model
51.4
Phương pháp Jaccard
52.0
TextRank áp dụng cho tiếng Việt
33.2
Microsoft Word 2003
12.4
2) Cách 2
Chúng tôi thu thập 25 bài viết trên 2 trang báo điện tử
vietnamnet và vnexpress theo điều kiện các bài viết cần có
tóm tắt theo kiểu rút trích nguyên văn một số câu từ nội dung
của bài viết. Chúng tôi cũng đã lựa chọn các bài viết có số
lượng câu tóm tắt là khá ít, dao động trong khoảng từ 1 đến 3
câu. Kết quả thực nghiệm theo cách 1 cho thấy độ đo Jaccard
có kết quả tốt hơn cả nên ở cách 2 này chúng tôi chỉ thực
nghiệm với độ đo Jaccard. Hình 4 minh họa độ chính xác của
phương pháp tóm tắt đối với từng văn bản cũng như độ chính
xác trung bình trên tập 25 văn bản.
Phân tích kết quả đạt được chúng tôi nhận thấy có 7 văn
bản có kết quả tóm tắt trùng khớp 100%, phần nhiều vẫn là
trùng khớp với tỷ lệ 50%, tuy nhiên vẫn còn có một số văn
bản tỷ lệ trùng khớp là 0%. Tỷ lệ trùng khớp trung bình trên
tập 25 văn bản là 55.3%, tỷ lệ này cũng gần với tỷ lệ thực
nghiệm ở cách 1.
Hình 4. Kết quả thực nghiệm theo cách 2
KẾT LUẬN VÀ KIẾN NGHỊ
Hình 3 Kết quả thực nghiệm khi có sử dụng và không sử dụng JVnTextPro
So sánh với các hệ thống đã có trên 5 văn bản thực
nghiệm cũng cho thấy hệ thống chúng tôi xây dựng cho độ
chính xác cao hơn (Bảng 4).
TextRank áp dụng cho tiếng Việt: TextRank là kết quả
nghiên cứu được đề xuất bởi [18] áp dụng cho văn bản tiếng
Anh. Thực nghiệm tóm tắt tương tự như cách thực nghiệm
đã áp dụng cho hệ thống do chúng tôi đề xuất.
AutoSummarize (Microsoft Word 2003): Thực nghiệm
tóm tắt tương tự như cách thực nghiệm đã áp dụng cho hệ
thống do chúng tôi đề xuất.
BẢNG 4. SO SÁNH KẾT QUẢ CỦA HỆ THỐNG ĐỀ XUẤT VỚI CÁC HỆ
THỐNG KHÁC
Phương pháp
Tên phương pháp
Đề xuất
Phương pháp Jaro
Độ chính xác (%)
46.4
Trong bài báo này, chúng tôi giới thiệu phương pháp
trích chọn tóm tắt từ nội dung văn bản theo hướng tiếp cận
sử dụng cấu trúc đồ thị để biểu diễn văn bản, đây là hướng
tiếp cận mới của thế giới trong những năm gần đây. Chúng
tôi cũng đề xuất ứng dụng các độ khác nhau để tính độ tương
tự câu trong hệ thống tóm tắt văn bản. Trong đó: 1- đây là
công trình nghiên cứu lần đầu tiên tại Việt Nam sử dụng 3
thuật toán Jaro, Contrast Model và Jaccard vào công việc
tóm tắt văn bản và cho kết quả khả quan; 2- đây cũng là công
trình nghiên cứu đầu tiên trên thế giới tích hợp thuật toán
Contrast Model vào hệ thống tóm tắt văn bản, thuật toán này
thể hiện độ chính xác cao trên tập dữ liệu nghiên cứu. Kết
quả thực nghiệm (ngay cả khi tập dữ liệu kiểm thử có kích
thước nhỏ) đã chứng minh phần nào tính khả thi trong việc
ứng dụng kết quả nghiên cứu vào thực tiễn.
Kết quả khả quan của phương pháp đề xuất có thể lý giải
từ nhiều nguyên nhân: 1- Sử dụng được ưu điểm của phương
pháp chỉ mục từ tiếng Việt do công cụ JVnTextPro cung cấp.
Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012
Thật vậy, trong nghiên cứu của mình, chúng tôi dựa trên
hướng tiếp cận “mô hình túi từ - bag of words” để biểu diễn
nội dung văn bản, phương pháp này có ưu điểm là cài đặt
đơn giản nhưng có hạn chế lớn là làm mất đi ngữ nghĩa của
văn bản vì không quan tâm đến vị trí của từ mà chỉ quan tâm
đến tần suất xuất hiện của từ. Vì sử dụng công cụ
JVnTextPro có khả năng nhận biết chính xác từ đơn và từ
ghép nên ngữ nghĩa của văn bản phần nào được giữ lại so
với việc xem nội dung văn bản là tập hợp các từ đơn (từ gồm
1 chữ); 2- Thuật toán PageRank dùng để xếp hạng các trang
web đã chứng tỏ được tính khả thi khi được ứng dụng thành
công trong các bộ máy tìm kiếm thông tin web. Khi được
ứng dụng vào ngữ cảnh này, PageRank tỏ ra hiệu quả ngay
cả khi đồ thị web là một đồ thị không có trọng số. Vì thế
chúng tôi tin rằng sự kết hợp thuật toán xếp hạng PageRank
với các độ đo tương tự (gán trọng số cho cạnh) sẽ mang lại
kết quả khả quan và kết quả thực nghiệm đã phần nào chứng
minh nhận xét trên khi mà độ đo Jaccard và độ đo Contrast
Model đã cho kết quả tóm tắt vượt trên các hệ thống sẵn có,
đặc biệt là khi so sánh với phương pháp có hướng tiếp cận
tương tự là TextRank.
Một ưu điểm khác của phương pháp chúng tôi đề xuất là
quá trình tóm tắt không cần tập ngữ liệu huấn luyện, cũng
như không cần xem xét tính ngữ nghĩa và cấu trúc ngữ pháp
của câu và việc tóm tắt được áp dụng trên từng văn bản đơn.
Tuy kết quả đạt được bước đầu là rất khả quan nhưng để
có thể khẳng định chắc chắn hơn tính khả thi của giải pháp
chúng tồi cần thêm thời gian thu thập dữ liệu thực nghiệm
cũng như cần thêm thời gian và sự đóng góp của bạn bè đồng
nghiệp trong việc trợ giúp thực hiện tóm tát các đoạn văn
bản như là một kênh thông tin so khớp với kết quả của
phương pháp. Chúng tôi cũng đề xuất áp dụng giải pháp tóm
tắt văn bản tự động như là một công đoạn của phân nhóm tài
liệu. Thay vì phân nhóm văn bản dựa trên toàn bộ nội dung
của nó thì ta có thể phân nhóm dựa vào tóm tắt của nó, và
nếu giải pháp này thành công thì sẽ giúp tăng đáng kể tốc độ
của các ứng dụng phân nhóm văn bản theo chủ đề.
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
TÀI LIỆU THAM KHẢO
[15]
[1]
[2]
Karel Jezek and Josef Steinberger, “Automatic Text summarization”,
Vaclav Snasel (Ed.): Znalosti 2008, pp.1-12, ISBN 978-80-227-28270, FIIT STU Brarislava, UstavInformatiky a softveroveho
inzinierstva, 2008.
G Erkan and Dragomir R. Radev, “LexRank: Graph-based Centrality
as Salience in Text Summarization”, Journal of Artificial Intelligence
Research, Re-search, Vol. 22, pp. 457-479 2004.
View publication stats
[16]
[17]
[18]
Farshad Kyoomarsi, Hamid Khosravi, Esfandiar Eslami and Pooya
Khosravyan Dehkordy (2008), “Optimizing Text Summarization
Based on Fuzzy Logic”, Proceedings of Seventh IEEE/ACIS
International Conference on Computer and Information Science,
IEEE, University of Shahid Bahonar Kerman, UK, pp. 347-352.
Vishal Gupta, Gurpreet Singh Lehal (2010), “A Survey of Text
Summarization Extractive Techniques”, Journal of Emerging
Technologies in Web Intelligence, Vol 2, No 3 (2010), 258-268.
Mohamed Abdel Fattah, Fuji Ren, “GA, MR, FFNN, PNN and GMM
based models for automatic text summarization”, Computer Speech &
Language 23(1): 126-144 (2009).
H. P. Edmundson, “New Methods in Automatic Extracting”, J. ACM
16(2): 264-285 (1969).
Daniel Marcu, “The Theory and Practice of Discourse Parsing and
Summarization”, A Bradford Book, MIT Press, Cambridge,
Massachusetts, 2000.
Dragomir R. Radev, Hongyan Jing, Malgorzata Stys, and Daniel Tam
, “Centroid-based summarization of multiple documents”.
Information Processing and Management, vol. 40, issue 6, pp. 919938, 2004.
Mihalcea, R., “Graph-based ranking algorithms for sentence
extraction, applied to text summarization”, ACL 2004 on Interactive
poster and demonstration sessions, Association for Computational
Linguistics, Morristown, NJ, USA, pp. 181–184, 2004.
Nguyen, L.M., Shimazu, A., Ho, T.B., Phan, X.H., Horiguchi, S.,
“Sentence extraction with support vector machine ensemble”, First
World Congress of the International Federation for Systems Research
(IFSR'05), Symposium on Data/Text Mining from Large Databases,
Kobe, 15-17 November, S5-2-4, 2005.
Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “Gom cụm đồ thị
và ứng dụng vào việc rút trích nội dung chính của khối thông điệp
trên diễn đàn thảo luận”, Tạp chí phát triển Khoa học Công nghệ, Tập
11, Số 05 - 2008, pp 21-32, 2008.
Nguyen Trong Phuc, Le Thanh Huong, “Vietnamese text
summarisation using discourse structures”, The ICT.rda conference,
Hanoi, Vietnam, 2008.
Nguyen Cam Tu, “JvnTextPro: A Java-based VietNamese Text
Processing Toolkit”.
Winkler, W. E., “String Comparator Metrics and Enhanced Decision
Rules in the Fellegi-Sunter Model of Record Linkage”. Proceedings
of the Section on Survey Research Methods (American Statistical
Association): 354–359, 1990.
Tversky, A., “Features of similarity”, Psychological Review, 84, 327352, 1977.
Paul Jaccard, “Etude comparative de la distribution orale dans une
portion des Alpes et des Jura”. In Bulletin del la Socit Vaudoise des
Sciences Naturelles, volume 37, pages 547-579.
L. Page, S. Brin, R. Motwani, and T. Winograd, “The PageRank
citation ranking: Bringing order to the web”, 1999.
G Erkan and Dragomir R. Radev, “LexRank: Graph-based Centrality
as Salience in Text Summarization”, Journal of Artificial Intelligence
Research, Re-search, Vol. 22, pp. 457-479, 2004.