« Home « Kết quả tìm kiếm

Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học


Tóm tắt Xem thử

- Bayes thơ ngây, k-láng giềng gần nhất, máy học véc-tơ hỗ trợ, phân loại văn bản Keywords:.
- Bài viết này đề xuất giải pháp tự động rút trích thơng tin và phân loại một bài báo khoa học vào chủ đề nào đĩ.
- Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hĩa và phân loại bằng kỹ thuật máy học.
- 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học..
- Giải pháp phân loại bài báo khoa học bằng kĩ thuật máy học.
- Với sự phát triển bùng nổ của thơng tin và sự phát triển đồng thời của khả năng tính tốn tự động thì phân loại dữ liệu, đặc biệt là dữ liệu văn bản cĩ tầm đặc biệt quan trọng (Thaoroijam, 2014).
- Phân loại là một kỹ thuật học cĩ giám sát (supervised learning), được ứng dụng nhiều trong thực tế như định tuyến trung tâm cuộc gọi (call center routing), trích xuất siêu dữ liệu tự động (automatic metadata extraction) (Li et al., 2017).
- Theo Yang and Liu (1999) thì phân loại văn bản là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đĩ so với các văn bản đã được gán nhãn trong tập huấn luyện..
- Phân loại văn bản tự động giúp cho việc lưu trữ, tìm kiếm thơng tin nhanh chĩng hơn.
- Ngồi ra, với số lượng văn bản lớn thì thao tác phân loại lần lượt trong từng văn bản sẽ mất rất nhiều thời gian, cơng sức, chưa kể khả năng xảy ra trường hợp phân loại khơng chính xác do tính chủ quan của người phân loại.
- Các ứng dụng phân loại văn bản rất đa dạng như lọc thư rác (spam email), phân loại tin tức theo chủ đề trên các báo điện tử, quản lý tri thức và hỗ trợ cho các cơng cụ tìm kiếm trên Internet (Thaoroijam, 2014)..
- Chẳng hạn, hệ thống nộp bài tự phân loại lĩnh vực (chủ đề), rút trích các thơng tin liên quan một cách tự động khi tác giả gửi (upload) một bài viết lên hệ thống, đặc biệt đối với tạp chí lớn như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính (Association for Computing Machinery - ACM) với hơn 2.000 chủ đề thì tác giả mất rất nhiều thời gian để xác định chủ đề của bài viết.
- Vấn đề phân loại văn bản được nhiều nhà khoa học quan tâm với các hướng tiếp cận khác nhau.
- Một cách tiếp cận được nhiều nhà nghiên cứu sử dụng là phương pháp máy học, với nhiều thuật tốn giải bài tốn phân loại văn bản như: k láng giềng gần nhất (k nearest neighbor - kNN), Nạve Bayes, máy học véc-tơ hỗ trợ (support vector machines - SVM), cây quyết định (decision tree), mạng neuron nhân tạo (artificial neural network) (George and Pat, 1995;.
- Nghiên cứu này đề xuất giải pháp phân loại tự động bài báo khoa học nhằm hỗ trợ các tác giả, ban biên tập phân loại lĩnh vực của bài báo khi nộp bài trực tuyến.
- 2.1 Phân loại văn bản.
- Phân loại văn bản tự động là việc phân chia một tập văn bản đầu vào thành hai hoặc nhiều lớp, trong đĩ mỗi văn bản cĩ thể thuộc một hoặc nhiều lớp..
- Cơng việc này nhằm mục đích gán nhãn (hay lớp - class) được định nghĩa trước cho các văn bản.
- Nhiệm vụ phân loại được bắt đầu xây dựng từ một tập các văn bản D = {d 1.
- 𝑓 𝑑, 𝑐 𝑡𝑟𝑢𝑒, 𝑛ế𝑢 𝑑 𝑡ℎ𝑢ộ𝑐 𝑙ớ𝑝 𝑐 𝑓𝑎𝑙𝑠𝑒, 𝑛ế𝑢 𝑑 𝑘ℎơ𝑛𝑔 𝑡ℎ𝑢ộ𝑐 𝑙ớ𝑝 𝑐 2.2 Các giải thuật phân loại văn bản Cĩ nhiều thuật tốn phân loại văn bản.
- Đây là ba thuật tốn được nhiều nghiên cứu đánh giá là hiệu quả trong phân loại văn bản..
- kNN là giải thuật phân loại (hay phân lớp) các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần phân lớp và tất cả các đối tượng trong tập huấn luyện (Tan et al., 2006).
- Ý tưởng của phương pháp này là khi cần phân loại một văn bản mới, thuật tốn sẽ tính tốn khoảng cách của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra tập K láng giềng gần nhất..
- Để phân lớp cho một văn bản mới x, trước hết bộ phân lớp sẽ tính khoảng cách từ văn bản x đến tất cả các văn bản trong tập huấn luyện.
- Qua đĩ tìm được tập N(x, D, k) gồm k văn bản mẫu cĩ khoảng cách đến x là gần nhất..
- Thuật tốn Nạve Bayes (Mitchell, 1997) là một thuật tốn phổ biến trong máy học được McCallum and Nigam (1998) và Yang and Liu (1999) đánh giá là một trong những phương pháp cĩ hiệu năng cao nhất khi thực hiện phân lớp văn bản.
- SVM rất hiệu quả để giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các véc-tơ biểu diễn văn bản.
- SVM được xem là bộ phân lớp chính xác nhất cho bài tốn phân lớp văn bản (Chakrabarti, 2003) do tốc độ phân lớp rất nhanh và hiệu quả đối với bài tốn phân lớp văn bản..
- Ý tưởng của phương pháp này là cho trước một tập huấn luyện được biểu diễn trong khơng gian véc- tơ, trong đĩ mỗi văn bản được xem là một điểm trong khơng gian này.
- Mục tiêu của thuật tốn SVM là tìm được khoảng cách biên lớn nhất để tạo được kết quả phân loại tốt..
- Giả sử, để đánh giá một bộ phân loại hai lớp tạm gọi là.
- TP (True positive) là số phần tử dương được phân loại dương.
- FN (False negative) là số phần tử dương được phân loại âm.
- TN (True negative) là số phần tử âm được phân loại âm.
- và FP (False positive) là số phần tử âm được phân loại dương..
- 2.3 Các nghiên cứu liên quan về phân loại văn bản.
- Nhiều nghiên cứu phân loại văn bản được ứng dụng để giải quyết các bài tốn trong thực tế, cĩ thể ví dụ hai nghiên cứu sau:.
- 2.3.1 Phân loại văn bản bằng SVM và cây quyết định.
- Nhĩm tác giả Trần Cao Đệ và Phạm Nguyên Khang (2012) đã nghiên cứu SVM, áp dụng nĩ vào bài tốn phân loại văn bản và so sánh hiệu quả của nĩ với hiệu quả của giải thuật phân lớp cổ điển cây quyết định.
- Sau khi tách từ tác giả tiến hành mơ hình hĩa văn bản thành dạng véc-tơ, sử dụng TF*IDF véc-tơ hĩa;.
- tiến hành phân loại văn bản với hai giải thuật SVM và cây quyết định trong phần mềm Weka.
- Với tập dữ liệu là 7842 văn bản thuộc 10 chủ đề khác nhau, ứng với mỗi chủ đề, tác giả chọn ra 500 văn bản một cách ngẫu nhiên để tiến hành huấn luyện, số văn bản cịn lại để kiểm chứng độc lập.
- Kết quả phân loại cho thấy phân lớp với SVM thực sự tốt hơn phân lớp bằng cây quyết định.
- 2.3.2 Phân loại văn bản với giải thuật Nạve Bayes.
- Nhĩm tác giả Trần Thị Thu Thảo và Vũ Thị Chinh (2012) đã tiến hành xây dựng module tách từ theo mơ hình N-gram, sau đĩ mơ hình hĩa văn bản đã được tách từ bằng véc-tơ TF*IDF.
- Với tập dữ liệu đã được mơ hình hĩa thành véc-tơ, tác giả tiến hành phân loại dựa trên phương pháp Nạve Bayes.
- Kết quả phân loại đạt được khá khả quan,.
- tuy nhiên nghiên cứu cịn hạn chế về tập dữ liệu thử nghiệm và chưa cĩ những so sánh đánh giá phương pháp Nạve Bayes với các phương pháp phân loại khác..
- và phân loại lĩnh vực bài báo được mơ hình hĩa như Hình 2..
- Hình 2: Kiến trúc mơ hình rút trích và phân loại bài báo khoa học Do bài báo là tập tin định dạng sẵn nên việc rút.
- Vì vậy, nghiên cứu này chỉ tập trung giải quyết vấn đề phân loại lĩnh vực của bài báo khi tác giả gửi đăng tạp chí..
- 3.2 Các giai đoạn phân loại.
- Việc phân loại bài báo khoa học tự động được.
- Giai đoạn huấn luyện: Ở giai đoạn này, dựa vào tập dữ liệu cĩ sẵn đã được phân loại chủ đề cùng với các giải thuật máy học, tiến hành cho máy học để sinh ra mơ hình phân lớp (classification model) Giai đoạn này được mơ tả như Hình 3..
- phân loại bài báo khoa học ở tập dữ liệu kiểm thử Giai đoạn này được mơ tả như Hình 4..
- Chuyển định dạng .docx sang .txt và chuẩn hĩa từ: Do tập dữ liệu được sử dụng là các tập tin định dạng .docx (hoặc .doc) nên cần phải tiến hành chuyển đổi chúng sang định dạng văn bản thuần túy (.txt) để dễ dàng sử dụng trong hầu hết các giải thuật, các thư viện phục vụ cho việc phân loại tự động..
- khi chuyển tập tin định dạng từ .docx sang .txt, tiến hành chuẩn hĩa từ để chuyển tất cả ký tự của văn bản thành chữ thường, xĩa các khoảng trống..
- phân loại.
- Phân loại.
- Đây là cơng cụ tách từ tiếng Việt tự động, tách các văn bản tiếng Việt thành các đơn vị từ vựng (từ ngữ, tên, số, ngày tháng và các biểu thức chính quy khác) với độ chính xác hơn 95%..
- Loại bỏ từ dừng (Stop words): Từ dừng (stop words) là những từ xuất hiện nhiều trong tất cả các văn bản thuộc mọi thể loại trong tập dữ liệu, hay những từ chỉ xuất hiện trong một và một vài văn bản..
- 3.2.2 Véc-tơ hĩa văn bản.
- Cĩ một số mơ hình biểu diễn văn bản như mơ hình khơng gian véc-tơ (vector space model) dựa trên phương pháp đánh trọng số của từ theo tần số, mơ hình túi từ (bag of words model), mơ hình hĩa văn bản thành đồ thị (graph-based model).
- Nghiên cứu này đề cập phương pháp biểu diễn văn bản theo mơ hình khơng gian véc-tơ (Perone, 2013).
- Theo mơ hình này, mỗi văn bản được biểu diễn thành một véc-tơ.
- mỗi thành phần của véc-tơ là một từ riêng biệt trong tập văn bản và được gán một giá trị là trọng số của từ đĩ trong văn bản đĩ..
- Ví dụ: xét 2 văn bản với trọng số là số lần xuất hiện của từ khĩa trong văn bản: Văn bản 1 là “Cửa.
- văn bản 2 là “Cửa hàng điện thoại bán điện thoại”.
- Bảng 1: Ví dụ mơ hình khơng gian véc-tơ biểu diễn 2 văn bản.
- Từ khĩa Văn bản 1 Văn bản 2.
- Bài tốn biểu diễn văn bản theo mơ hình khơng gian véc-tơ như sau: Đầu vào là một tập gồm cĩ j văn bản trong miền ứng dụng D, với D = {d 1 , d 2,….
- d j } và tập gồm m từ trong mỗi văn bản T = {t 1 , t 2,….
- đầu ra lần lượt đánh trọng số cho từng từ trong mỗi văn bản từ đĩ xây dựng ma trận trọng số w ij là trọng số của từ w j trong văn bản d j € D..
- trong văn bản d j , trong đĩ giải pháp tích hợp tần số xuất hiện từ khĩa (TF - Term Frequency) và nghịch đảo tần số xuất hiện trong các văn bản (IDF- Inverse Document Frequency) được sử dụng khá phổ biến..
- TF - Term Frequency: dùng để ước lượng tần suất xuất hiện của một từ trong một văn bản nào đĩ..
- Bên cạnh đĩ, mỗi văn bản đều cĩ độ dài, số lượng từ ngữ khác nhau vì thế số lần xuất hiện của từ sẽ khác nhau.
- Nên để đánh trọng số của một từ người ta lấy số lần xuất hiện của từ đĩ chia cho độ dài của văn bản (tức là số từ của văn bản đĩ)..
- TF t , d số lần từ t xuất hiện trong văn bản d tổng số từ trong văn bản d.
- Các giá trị w ij được tính dựa trên tần số (hay số lần) xuất hiện của từ khĩa trong văn bản.
- Gọi f ij là số lần xuất hiện của từ khĩa t i trong văn bản d j , khi đĩ w ij được tính bởi một trong ba cơng thức cơ bản sau:.
- Trong đĩ f ịj là số lần xuất hiện của từ khĩa t i trong văn bản d j..
- Nếu t i xuất hiện trong văn bản d j thì 𝑤 1, ngược lại: 𝑤 0..
- IDF - Inverse Document Frequency: dùng để ước lượng mức độ quan trọng của một từ trong một văn bản nào đĩ.
- 𝐼𝐷𝐹 𝑡 , 𝐷 𝑙𝑜𝑔 𝑡ổ𝑛𝑔 𝑠ố 𝑣ă𝑛 𝑏ả𝑛 𝑡𝑟𝑜𝑛𝑔 𝑡ậ𝑝 𝑚ẫ𝑢 𝐷 𝑠ố 𝑣ă𝑛 𝑏ả𝑛 𝑐ĩ 𝑐ℎứ𝑎 𝑡ừ 𝑡 Từ xuất hiện trong nhiều văn bản thì trọng số trong một văn bản sẽ thấp..
- 𝑑𝑓 log 𝑚 log 𝑑𝑓 , 𝑛ế𝑢 𝑇𝐹 1 𝑤 0, 𝑛ế𝑢 𝑇𝐹 0 TF*IDF: là sự tích hợp giữa tần số xuất hiện từ khĩa TF và nghịch đảo tần số xuất hiện trong các văn bản IDF.
- Phương pháp này khá phổ biến được dùng để tính giá trị TF*IDF của một từ thơng qua mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản..
- Những từ cĩ IF*IDF cao là những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác.
- Quá trình mơ hình hĩa mỗi văn bản là một véc- tơ trọng số các từ.
- (Nguồn: Tạp chí khoa học Trường Đại học Cần Thơ) Sau các quá trình tiền xử lý và véc-tơ hĩa, tập dữ liệu các bài báo được huấn luyện với các giải thuật phân loại văn bản tự động như SVM, Nạve Bayes, kNN.
- Kết quả phân loại sử dụng 3 thuật tốn máy học: SVM, Nạve Bayes, kNN.
- Kết quả thực nghiệm cho thấy hiệu quả phân loại của các giải thuật là tương đối tốt.
- thuật SVM cĩ kết quả phân loại tốt nhất, cho độ chính xác >.
- 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học.
- gĩp phần giúp cho quá trình phân loại bài báo của tác giả và ban biên tập được nhanh và chính xác hơn.
- Kết quả phân loại này cũng phù hợp với nhiều nhĩm nghiên cứu đã chứng minh bằng thực nghiệm: phương pháp SVM phân loại văn bản cho kết quả tốt tương đương hoặc tốt hơn đáng kể các phương pháp phân loại khác (Boser et al., 1992.
- Bảng 3: So sánh kết quả phân loại giữa các giải thuật: SVM, Nạve Bayes, kNN.
- Trong bài viết này, giải pháp tự động phân loại bài báo khoa học sử dụng các giải thuật máy học đề xuất nhằm hỗ trợ các tác giả, ban biên tập tiết kiệm thời gian và cơng sức khi xử lý bài viết trên hệ thống..
- Kết quả thực nghiệm cho thấy giải thuật phân loại SVM cho kết quả phân loại tốt hơn nhiều so với hai giải thuật Nạve Bayes và kNN..
- Với mơ hình đề xuất, việc rút trích thơng tin và tự động phân loại bài báo khoa học khi tác giả gửi đăng trên các tạp chí hồn tồn khả thi.
- Phân loại văn bản với máy học véc-tơ hỗ trợ và cây quyết định.
- Xây dựng hệ thống phân loại tài liệu tiếng Việt