« Home « Kết quả tìm kiếm

Đề xuất mô hình quản lý và trực quan hóa kết quả thống kê văn bản trực tuyến - ứng dụng trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ


Tóm tắt Xem thử

- ĐỀ XUẤT MÔ HÌNH QUẢN LÝ VÀ TRỰC QUAN HÓA KẾT QUẢ THỐNG KÊ VĂN BẢN TRỰC TUYẾN − ỨNG DỤNG TRONG PHÂN TÍCH XU HƯỚNG NGHIÊN CỨU KHOA HỌC TẠI TRƯỜNG ĐẠI HỌC CẦN THƠ.
- 1 Trung tâm Công nghệ Phần mềm, Trường Đại học Cần Thơ.
- Truyền Thông, Trường Đại học Cần Thơ.
- Mục tiêu của bài viết là đề xuất mô hình quản lý và khai thác hữu hiệu các dữ liệu phong phú, đa dạng đang tồn tại dưới dạng các văn bản, bảng tính của một tổ chức.
- Bên cạnh đó, chúng tôi cũng đề xuất giải pháp công nghệ cụ thể dựa trên các nền tảng Big Data phổ biến, bao gồm: (1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, (2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản và (3) Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao.
- Bài viết cũng trình bày kết quả thực nghiệm, tổng hợp kết quả và trình bày biểu đồ thống kê của việc áp dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ..
- Đề xuất mô hình quản lý và trực quan hóa kết quả thống kê văn bản trực tuyến - ứng dụng trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ.
- Tạp chí Khoa học Trường Đại học Cần Thơ.
- Tuy nhiên, các tổ chức nói chung cũng như Trường Đại học Cần Thơ nói riêng chủ yếu tiếp cận cách phát triển các hệ thống thông tin với dữ liệu đã chuẩn hóa và có cấu trúc.
- Điều đó có nghĩa là chúng ta đã và đang lãng phí một nguồn dữ liệu khổng lồ dạng.
- Với những ưu điểm và tác động mạnh mẽ của Dữ liệu lớn (Big Data) vào các ứng dụng liên quan, Big Data đang được xem như một yếu tố quyết định đến việc phát triển cũng như mang lại lợi thế cạnh tranh của các tổ chức..
- Chúng tôi nhận thấy đây là cách tiếp cận hợp lý và hữu hiệu cho mục tiêu xây dựng một bộ quản lý và hỗ trợ tìm kiếm tài liệu cục bộ của một tổ chức, tuy nhiên việc tìm kiếm văn bản tiếng Việt chưa được hỗ trợ.
- Sau khi đánh giá và lựa chọn bộ trực quan, chúng tôi nhận thấy Banana − một phiên bản mở rộng của Kibana − là lựa chọn phù hợp với bộ tìm kiếm Solr..
- Trong bài viết này, chúng tôi đề xuất mô hình tích hợp mới và thêm những tính năng phù hợp với các tập dữ liệu tiếng Việt nhưng vẫn chưa tìm thấy trong các nghiên cứu liên quan, trong đó chúng tôi sẽ bắt đầu nghiên cứu xử lý dữ liệu để chạy các dịch vụ phân tích, xử lý và trả lời các yêu cầu truy vấn của người dùng.
- Chúng tôi tích hợp thêm VnAnalyzer (Cao Mạnh Đạt, 2013) để hỗ trợ tìm kiếm văn bản tiếng Việt và Banana dùng cho việc trực quan hóa kết quả thống kê..
- Thêm vào đó, chúng tôi đã cài đặt, tích hợp thành công và ứng dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ dựa trên các bài báo khoa học được công bố bởi tạp chí khoa học của Trường, với kết xuất đầu ra là các kết quả tìm kiếm và các biểu đồ đánh giá sự tương quan giữa các nghiên cứu trên tạp chí này với định hướng nghiên cứu khoa học ưu tiên tại Trường Đại học Cần Thơ (theo biên bản họp số:.
- Trong Phần 3, chúng tôi giới thiệu mô hình quản lý đề xuất tìm kiếm tài liệu và trực quan hóa kết quả thống kê trên nền Hadoop và Lucene/Solr.
- Phần 4 chúng tôi sẽ trình bày một số kết quả đạt được dựa trên mô hình đã đề xuất trong Phần 3, ứng dụng mô hình đề xuất trên tập dữ liệu Tạp chí khoa học Đại học Cần Thơ.
- Cuối cùng, chúng tôi đưa ra kết luận về kết quả nghiên cứu của mô hình đã đề xuất..
- 2 CƠ SỞ LÝ THUYẾT 2.1 Dữ liệu lớn (Big data).
- Dữ liệu lớn là thuật ngữ dùng để mô tả các bộ dữ liệu có kích thước rất lớn, khả năng phát triển nhanh nhưng rất khó thu thập, lưu trữ, quản lý và phân tích với các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống.
- Hadoop là một khung ứng dụng nguồn mở của Apache cho phép triển khai hàng loạt các kỹ thuật quản lý dữ liệu, tìm kiếm, khai phá dữ liệu lớn, cho phép các hệ thống có cấu trúc và không có cấu trúc trao đổi và làm việc với nhau một cách hiệu quả..
- Khả năng mở rộng: Cho phép thay đổi số lượng phần cứng mà không cần thay đổi định dạng dữ liệu hay khởi động lại hệ thống..
- Linh hoạt: Hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào..
- Chịu lỗi: Thiếu dữ liệu và phân tích thất bại là hiện tượng thường gặp trong phân tích Big Data..
- Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm thông qua các hàm API.
- Lucene có thể lập chỉ mục và hỗ trợ các thư viện tìm kiếm các loại dữ liệu văn bản đa dạng: .doc, .pdf, .html, v.v.
- Để tiến hành đánh chỉ mục được trong Lucene, trước hết phải chuyển dữ liệu thành dạng văn bản thuần túy (plain text) như tập tin .txt chẳng hạn..
- Lucene sẽ phân chia dữ liệu thành các chuỗi hoặc là các ký tự thông qua việc lựa chọn các toán tử thực thi trên chúng.
- Sau khi dữ liệu được phân tích, nó sẽ sẵn sàng cho việc lập chỉ mục.
- Lucene sẽ chứa dữ liệu này theo cấu trúc chỉ mục nghịch đảo (Inverted Index).
- Nguyên tắc của nó là thay vì phải tìm kiếm các từ nào chứa trong tài liệu đó thì với.
- Lucene vẫn chưa xây dựng một bộ phân tích từ vựng dành riêng cho tiếng Việt, điều này có thể làm giảm tính hiệu quả của việc tìm kiếm.
- 2.4 Bộ tìm kiếm văn bản Apache Solr Apache Solr là một nền tảng tìm kiếm toàn văn (full-text) mã nguồn mở dựa trên Apache Lucene, chức năng chính là tìm kiếm, đánh chỉ số, cung cấp API để làm việc.
- Solr nhập dữ liệu chủ yếu dưới dạng XML/HTML và JSON.
- Solr cũng có thể sử dụng thư mục để nhập khối dữ liệu lớn.
- Người dùng có thể truy vấn dữ liệu lớn này thông qua HTTP GET và nhận về kết quả dưới dạng XML hoặc JSON.
- Solr sử dụng Apache Lucene làm thư viện cho việc đánh chỉ mục và tìm kiếm..
- Khả năng tìm kiếm văn bản toàn văn (Full- Text Search giống cách thức Google)..
- Thống kê dưới dạng JMX..
- 2.5 Bộ công cụ trực quan hóa dữ liệu của Banana.
- Banana được xem như một công cụ có thể tạo ra các thống kê dữ liệu được lưu trữ trên Solr theo các dạng thống kê khác nhau.
- Việc kết hợp công cụ thống kê Banana vào Solr có thể giúp hiển thị dữ liệu một cách trực quan và đa dạng.
- Vì vậy, có giải quyết được nhiều vấn đề mà người dùng quan tâm về tập dữ liệu nhiều hơn và hơn hết là có thể khai thác được tập dữ liệu theo nhiều khía cạnh nhất có thể..
- 3 ĐỀ XUẤT MÔ HÌNH QUẢN LÝ, TÌM KIẾM TÀI LIỆU VÀ TRỰC QUAN HÓA KẾT QUẢ THỐNG KÊ.
- Trong bài viết này, chúng tôi đề xuất mô hình mới để quản lý và tìm kiếm văn bản với ba thành phần: (1) Hệ lưu trữ và phân phối tập tin dựa trên HDFS, (2) Hệ chỉ mục và tìm kiếm văn bản tiếng Việt dựa trên Lucene/Solr và (3) Bộ trực quan hóa dữ liệu.
- Hình 1: Mô hình quản lý và trực quan hóa kết quả thống kê văn bản.
- Trong mô hình trên, dữ liệu đầu vào (Data source 1, 2…) của mô hình là các tập tin văn bản dạng .doc, .docx, .pdf, .xsl… và dữ liệu đầu ra là kết quả tìm kiếm theo từ khóa của người dùng, thống kê và trực quan hóa kết quả..
- Năm trường này được sử dụng cho việc thống kê và trực quan hóa dữ liệu bằng bộ công cụ của Banana..
- HDFS đóng vai trò tạo bản sao của dữ liệu nguồn và lưu trữ trên nhiều nút độc lập, đảm bảo an toàn dữ liệu và khả năng đáp ứng nhanh, mỗi văn bản nguồn cần quản lý đều có ít nhất một bản sao lưu tại một trong các nút của Hadoop..
- Hệ thống chỉ mục, tìm kiếm văn bản và trình bày biểu đồ thống kê dựa trên Lucene/Solr:.
- Kết quả tìm kiếm sẽ trả về văn bản gốc phù hợp đã được lưu trữ tại hệ thống lưu trữ (1).
- Các chức năng tìm kiếm của Solr khá đa dạng và đáp ứng nhiều cách thức truy vấn khác nhau, trong đó chúng tôi tận dụng chủ yếu các tính năng nâng cao của tìm kiếm văn bản: tìm kiếm.
- Bên cạnh đó, Solr cũng cung cấp cơ chế vận hành hiệu quả trên nhiều nút nhằm giúp tăng cường hiệu năng tìm kiếm của hệ thống..
- Trong Apache Solr, chúng tôi cũng tích hợp thêm bộ phân tích tiếng Việt đó là VnAnalyzer, giúp việc tìm kiếm thêm tài liệu với ngôn ngữ tiếng Việt được dễ dàng..
- Bộ trực quan hóa dữ liệu:.
- Đây là thành phần đóng vai trò lọc dữ liệu và trực quan hóa thống kê kết quả tìm kiếm được cung cấp bởi thành phần (2)..
- 4 KẾT QUẢ THỰC NGHIỆM.
- Xây dựng hệ thống quản lý, tìm kiếm văn bản và trực quan hóa thống kê kết quả tìm kiếm để kiểm tra tính khả thi của các công nghệ đã được nghiên cứu, đồng thời ứng dụng hệ thống để đánh giá sự tương quan giữa các nghiên cứu trên tạp chí này với định hướng nghiên cứu khoa học ưu tiên.
- Các lĩnh vực nghiên cứu này được sử dụng như các từ khóa hoặc cụm từ khóa chính để tìm kiếm và trực quan hóa.
- Người dùng nhập từ khóa tìm kiếm thông tin, hệ thống xử lý và trả về kết quả tìm thấy.
- Đồng thời hệ thống sẽ kết xuất biểu đồ theo kết quả tìm kiếm tương ứng..
- Ba máy ảo chạy hệ thống HDFS của Hadoop để lưu trữ dữ liệu văn bản và 1 máy ảo Lucene/Solr cụ thể được liệt kê trong Bảng 1..
- Khi tải lên các dữ liệu trên master-node (nút chính) dữ liệu sẽ được nhân rộng ra các slave-node (nút thứ cấp) còn lại.
- Chúng ta có thể truy cập vào địa chỉ của bất kỳ nút nào đang hoạt động để xem thông tin và lấy dữ liệu..
- Một máy ảo chạy Solr để đánh chỉ mục và tìm kiếm văn bản, tích hợp thêm VnAnalyzer để hỗ trợ tìm kiếm văn bản tiếng Việt và Banana để phân tích và hiển thị biểu đồ thống kê kết quả..
- Khi người dùng tìm kiếm theo tiêu chí nào đó, kết quả sẽ được kết xuất như Hình 2..
- Tập dữ liệu "TẠP CHÍ KHOA HỌC ĐHCT".
- Hình 2: Giao diện kết xuất dữ liệu khi tìm kiếm trực tiếp trên Solr Để thể hiện kết quả tìm kiếm một cách trực.
- quả thông qua giao diện này giúp người sử dụng có cái nhìn tổng thể và có thể so sánh về kết quả mà họ tìm kiếm.
- Thời gian tìm kiếm.
- Hình 3: Giao diện trực quan hóa kết quả tìm kiếm Dưới đây chúng tôi trình bày một số kết quả.
- thực nghiệm điển hình về việc tìm kiếm, thống kê theo và trực quan hóa kết quả theo các từ khóa trên mô hình đã đề xuất như sau:.
- (1) Tìm kiếm và thống kê bài báo NCKH tại Trường Đại học Cần Thơ trong 5 năm .
- Trường 'donvi' được định nghĩa là khoa/đơn vị mà tác giả chính của bài báo NCKH công tác, để tìm kiếm những bài báo NCKH theo đơn vị thuộc Trường Đại học Cần Thơ, sử dụng truy vấn:.
- Hình 4: Thống kê bài báo NCKH tại Trường Đại học Cần Thơ theo khoa/đơn vị Kết quả trên tìm thấy có 1.298 bài báo NCKH.
- Khung 'Tác giả' cho thấy biểu đồ thống kê theo số lượng đóng góp của các tác giả cho tạp chí.
- Qua kết quả thống kê, chúng ta dễ dàng nhận ra sự chênh lệch về số lượng bài báo NCKH giữa các khoa là khá lớn.
- (2) Tìm kiếm và thống kê bài báo NCKH theo tên tác giả.
- hoặc tìm kiếm toàn văn với từ khóa "<ten-tac-gia>".
- Hình 5: Thống kê NCKH theo tên tác giả Để xem thống kê rõ hơn về mối tương quan.
- chuột vào tên tác giả tương ứng ở biểu đồ hình tròn trong khung 'Tác giả' để tạo thêm một bộ lọc ở khung 'Bộ lọc' và kết quả được thống kê như sau:.
- Hình 6: Tương quan giữa hai tác giả Từ kết quả thống kê ở Hình 6 có thể thấy hai.
- (3) Tìm kiếm và thống kê kết quả theo cụm từ.
- Việc dùng các cụm từ tìm kiếm như “Ứng dụng công nghệ cao trong nông nghiệp, thủy sản và môi trường”, “Quản lý và sử dụng bền vững tài nguyên thiên nhiên”, “Kỹ thuật công nghệ và công nghệ thông tin – truyền thông.
- và quan sát kết quả thống kê là điều có thể thực hiện được:.
- Kết quả tìm kiếm có 5 bài báo NCKH và có đến 4 bài được chấp nhận thời gian gần đây (từ cuối năm 2014 đến năm 2015).
- Có thể loại bớt những kết quả thống kê của những năm trước (ví dụ không thống kê năm 2011) bằng cách sử dụng câu truy vấn: "nông nghiệp".
- Các kết quả dưới đây, chúng tôi cho thấy được việc tìm kiếm đa dạng và phong phú hơn với việc kết hợp thêm các từ khóa để tìm kiếm:.
- Hình 8 với việc sử dụng từ khóa tìm kiếm: "tài nguyên thiên nhiên".
- Hình 8: Quản lý và sử dụng bền vững tài nguyên thiên nhiên Cuối cùng, chúng tôi trình bày kết quả tìm kiếm.
- hướng nghiên cứu khoa học được ưu tiên tại Trường Đại học Cần Thơ:.
- Trong bài viết này, chúng tôi đã đề xuất mô hình quản lý, tìm kiếm tài liệu và trực quan hóa kết quả thống kê dựa trên hai nền tảng Hadoop và Solr kết hợp một số thư viện của Lucene, bộ phân tích tiếng Việt và bộ công cụ trực quan hóa dữ liệu Banana.
- (1) Hệ lưu trữ và phân phối tập tin dựa trên HDFS, (2) Hệ chỉ mục và tìm kiếm văn bản dựa trên Lucene/Solr, đối với văn bản tiếng Việt thì chúng tôi thay thế bộ phân tích của nó bằng VnAnalyzer và (3) Bộ trực quan hóa dữ liệu để thống kê và hiển thị biểu đồ bằng công cụ trực quan Banana.
- Mô hình này vừa đáp ứng nhu cầu tổng hợp và quản lý tập trung các nguồn dữ liệu phân tán của một tổ chức, vừa hỗ trợ hiệu quả cho việc lập chỉ mục, tìm kiếm và chỉ hướng nguồn dữ liệu.
- Cuối cùng, chúng tôi đã cài đặt, tích hợp thành công và ứng dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ với kết xuất đầu ra là các kết quả tìm kiếm và các biểu đồ cho thấy xu hướng nghiên cứu khoa học liên quan đến định hướng nghiên cứu khoa học ưu tiên tại Trường Đại học Cần Thơ.
- Kết quả này có ý nghĩa thiết thực trong việc tìm kiếm, thống kê, kết xuất dữ liệu của một tổ chức khi các dữ liệu không phải ở dạng có cấu trúc như trước đây..
- tìm kiếm và kết xuất dữ liệu gặp rất nhiều khó khăn.
- Vì vậy, chúng tôi đề xuất các tập tin của bài báo trước khi được công bố cần được chuẩn hóa metadata theo chuẩn chung để có thể tìm kiếm, thống kê và kết xuất kết quả được dễ dàng.
- Ngoài ra, chúng tôi đề xuất ứng dụng mô hình này vào việc phân tích dữ liệu về NCKH cho Trường ĐHCT, điều này sẽ giúp cho các nhà quản lý có thêm thông tin để định hướng trong việc qui hoạch và xét duyệt các đề tài NCKH theo định hướng chung của Trường.