« Home « Kết quả tìm kiếm

PHÁT TRIỂN HỆ THỐNG PHÁT HIỆN ĐẠO VĂN CHO TRƯỜNG ĐẠI HỌC VIỆT NAM


Tóm tắt Xem thử

- Đạo văn được biết đến như một vấn nạn trong môi trường học thuật.
- Bên cạnh các chế tài nghiêm ngặt cho người đạo văn, cần có những công cụ hiệu quả để ngăn chặn, không để xảy ra tình trạng đạo văn trong trường đại học và trong sinh viên.
- Đã có nhiều ứng dụng được xây dựng để phát hiện đạo văn.
- Chúng thường dựa trên các thuật toán phát hiện đạo văn của riêng mình và thường thì không thể bổ sung hay tùy biến nhằm phù hợp với môi trường và ngôn ngữ tiếng Việt.
- Ngoài ra, khả năng mở rộng cũng là một tính năng quan trọng đối với một hệ thống phát hiện đạo văn vì số lượng tài liệu trong cơ sở dữ liệu là rất lớn và tăng lên nhanh chóng.
- Trong bài báo này, chúng tôi trình bày một hệ thống phát hiện sao chép để phát hiện đạo văn với các tính năng quan trọng: làm việc trên một cơ sở dữ liệu riêng, lớn của một tổ chức như trường đại học.
- Đạo văn là một trong những vấn nạn trong môi trường học thuật.
- Với sự phát triển nhanh chóng của Internet và các thiết bị Công nghệ thông tin (CNTT), việc đạo văn gần đây đã được thực hiện rất dễ dàng.
- Hơn nữa, họ cũng tận dụng kỹ thuật của CNTT để dấu việc đạo văn của họ.
- Ở Việt Nam, đạo văn là một trong những mối quan tâm đặc biệt trong hầu hết các trường đại học.
- Mỗi trường đại học có chính sách riêng về đạo văn của mình để ngăn chặn sinh viên đạo luận văn, tài liệu học thuật.
- Tuy nhiên, đạo văn vẫn còn tồn tại và có chiều hướng gia tăng trong học đường ở Việt Nam..
- Có một loạt các phương pháp tiếp cận, giải pháp và sản phẩm có sẵn để phát hiện đạo văn trong các ngôn ngữ thông dụng trên thế giới đặc biệt là tiếng Anh.
- Vì vậy, ứng dụng phát hiện đạo văn phải cung cấp tính năng làm việc được trên tập cơ sở dữ liệu.
- “riêng tư” để phát hiện đạo văn..
- Đạo văn là một trong những vấn đề được quan tâm đặc biệt tại Đại học Cần Thơ.
- Căn cứ vào các nghiên cứu hiện tại và phương thức hoạt động của những hệ thống phát hiện đạo văn hiện hữu cũng như nhu cầu cấp thiết của Đại học Cần Thơ trong phát hiện đạo văn, chúng tôi đề xuất một hệ thống phát hiện đạo văn cho Đại học Cần Thơ.
- Hệ thống phát hiện đạo văn của chúng tôi có thể được áp dụng cho các trường.
- Phần này cung cấp một cách nhìn tổng quan về đạo văn bao gồm: định nghĩa về đạo văn và đạo văn trong môi trường học thuật..
- 2.1 Đạo văn trong môi trường học đường Theo Meuschke và Gipp (Meuschke and Gipp, 2013), đạo văn là việc sử dụng các ý tưởng của người khác, mà không đưa ra lời xác nhận và tài liệu tham khảo phù hợp.
- Meuschke và Gipp nói rằng một số nhà nghiên cứu mô tả đạo văn học văn học như trộm cắp, ăn cắp ý tưởng hay lời nói từ những người khác (Ercegovac and Richardson, 2004.
- Tình trạng đạo văn học trên thế giới đã được thảo luận trong (Gipp, 2014).
- Nó cho thấy rằng đạo văn xảy ra trên toàn thế giới và trở thành một vấn đề chưa được giải quyết.
- Các nghiên cứu khác bên ngoài Mỹ và Canada cũng cho thấy tỷ lệ đạo văn rất cao trong môi trường học tập.
- Một số hệ thống phát hiện đạo văn đã được thực hiện và họ phát hiện 20% hoặc nhiều tài liệu có nội dung đáng ngờ (Barrett and Malcolm, 2006.
- Dựa trên những số liệu này, Gipp và Bela kết luận rằng đạo văn trong môi trường học thuật là một vấn đề nghiêm trọng..
- Ở Việt Nam, đạo văn học đã thực sự được quan tâm trong xã hội.
- Có rất nhiều cuộc thảo luận, hội thảo, hội nghị tập trung vào đạo văn trong học đường.
- Tuy nhiên, có rất ít nghiên cứu về đạo văn trong học thuật được xuất bản gần đây.
- Hầu như tất cả các trường hợp đạo văn được đưa tin trên các tờ báo như Thanh Niên, Tuổi Trẻ.
- Những tờ báo này mô tả đạo văn xảy ra khá phổ biến trong cả hai chương trình đại học và sau đại học.
- Họ đề nghị các trường đại học Việt Nam phải chống đạo văn nghiêm ngặt, nghiêm túc hơn.
- Hơn nữa, ứng dụng CNTT để phát hiện đạo văn cũng được đề cập đến như một trong những cách thức hiệu quả để giảm đạo văn.
- 2.2 Các hình thức đạo văn.
- Meuschke và Gipp (Meuschke and Gipp, 2013) phân loại các hình thức đạo văn học như sau:.
- Đạo văn hoàn toàn: được mô tả như là một loại sao chép gần như không thay đổi so với tài liệu nguồn.
- Giả tạo đạo văn: được mô tả như là một loại diễn giải, ngụy trang kỹ thuật, hay dịch từ ngôn ngữ này sang ngôn ngữ khác..
- Đạo văn cấu trúc và ý tưởng: đề cập một loại sử dụng cấu trúc của người khác, khái niệm rộng hơn mà không đưa ra trích dẫn nguồn phù hợp..
- Tự đạo văn: đề cập đến một loại tái sử dụng câu hay đoạn văn của của riêng mình mà không ghi nguồn phù hợp..
- Theo những quan sát của chúng tôi, đạo văn theo dạng “sao chép và dán” xảy ra khá phổ biến..
- Đây là loại đạo văn xảy ra trong cả hai chương trình đại học và sau đại học.
- Các loại khác của đạo văn hiếm khi được phát hiện và ghi nhận.
- Lý do những loại đạo văn này khó phát hiện ra vì các trường đại học Việt Nam không có bất kỳ hệ thống phát hiện đạo văn nào..
- 2.3 Những cách tiếp cận phát hiện đạo văn Meuschke và Gipp (Meuschke and Gipp 2013) phân loại các phương pháp phát hiện đạo văn thành hai nhóm: so sánh tương tự cục bộ và so sánh tương tự toàn cục.
- Trong bài báo này, chúng tôi sử dụng một trong những phương pháp đánh giá tương tự cục bộ để phân tích đạo văn.
- Phương pháp chúng tôi lựa chọn là Kasprzak (Kasprzak and Brandejs, 2010), xuất hiện trên tốp 10 phương pháp phát hiện đạo văn trong các cuộc thi quốc tế về phát hiện đạo văn.
- Theo phương pháp này, để phát hiện đạo văn trước hết phân chia một tài liệu cần kiểm tra thành một danh sách các từ n-gram.
- 3 HỆ THỐNG PHÁT HIỆN ĐẠO VĂN CHO TRƯỜNG ĐẠI HỌC CẦN THƠ.
- Trong phần này chúng tôi trình bày hệ thống phát hiện đạo văn tổng quát và sau đó đề xuất một hệ thống phát hiện đạo văn cho Đại học Cần Thơ..
- 3.1 Hệ thống phát hiện đạo văn tổng quát Hình 1 trình bày quá trình xứ lý chung để phát hiện đạo văn (Potthast, Hagen et al., 2013, Stein, zu Eissen et al., 2007).
- Với một tài liệu cần kiểm tra nào đó, quá trình tìm kiếm để phát hiện đạo văn sẽ phải tìm kiếm trên một tập dữ liệu rất lớn.
- Các tài liệu ứng cử viên là các tài liệu được xác định có khả năng cao là nguồn của đạo văn liên quan đến tài liệu cần kiểm tra.
- Bước thứ ba, dựa trên tri thức cho trước, hệ thống trình bày các tài liệu cần kiểm tra đạo văn theo một thể thức nhất định nhằm giúp cho người sử dụng có thể xử lý các tác vụ về sau..
- Hình 1: Mô hình xử lý dữ liệu tổng quát phát hiện đạo văn (Potthast, Hagen et al., 2013, Stein, zu Eissen et al., 2007).
- Ngoài ra, một hệ thống phát hiện đạo văn thường cần tạo chỉ mục của tất cả tài liệu trong tập tài liệu nguồn.
- Điều này giúp cải thiện hiệu suất hoạt động của hệ thống phát hiện đạo văn trên yếu tố thời gian tính toán.
- 3.2 Hệ thống phát hiện đạo văn cho Đại học Cần Thơ.
- Dựa trên hệ thống phát hiện sao chép, đạo văn tổng quát được trình bày trong phần trước, chúng tôi đề xuất một hệ thống phát hiện đạo văn cho Trường Đại học Cần Thơ (ĐHCT) với những điểm chính yếu sau:.
- Sử dụng phương pháp phát hiện đạo văn từ Kasprzak (Kasprzak and Brandejs 2010) với một số thay đổi để nó làm việc tốt hơn trong môi trường tiếng Việt.
- Điều này làm cho hệ thống phát hiện đạo văn của chúng tôi linh hoạt hơn, dễ dàng thay đổi sau này..
- 3.2.1 Tiền xử lý các tài liệu.
- Cả hai tài liệu cần kiểm tra và tài liệu nguồn đều được tiền xử lý như sau:.
- 3.2.2 Lập chỉ mục tài liệu nguồn.
- 3.2.3 Tìm kiếm các tài liệu tiềm năng.
- 3.2.4 So sánh tài liệu cần kiểm tra với tài liệu tiềm năng.
- Tài liệu cần kiểm tra được so sánh với mỗi tài liệu tiềm năng.
- Các đoạn tài liệu hợp lệ được coi là đoạn đạo văn.
- 3.3 Sử dụng JPPF để tăng hiệu suất hệ thống Dựa trên Hình 1, chúng tôi xác định hai công việc chính đòi hỏi rất nhiều thời gian tính toán: lập chỉ mục tài liệu và kiểm tra đạo văn.
- Chúng tôi sử dụng JPPF để tăng hiệu suất hệ thống phát hiện đạo văn như Hình 2.
- Yêu cầu đầu tiên là lập chỉ mục tài liệu - đòi hỏi hệ thống phát hiện đạo văn đọc siêu dữ liệu của các tài liệu nguồn từ cơ sở dữ liệu ĐH Cần Thơ, chuyển đổi tài liệu ở định dạng nhị phân từ các máy chủ của Đại học Cần Thơ sang định dạng văn bản, và sau đó lưu trữ chúng trong hệ thống tập tin cục bộ.
- Yêu cầu thứ hai là kiểm tra đạo văn.
- Hệ thống phát hiện đạo văn đọc các tài liệu cần kiểm tra cho trước, chuyển đổi chúng sang dạng văn bản, sau đó lưu chúng trong một thư mục tạm thời để sử dụng về sau.
- Hình 2: Kiến trúc của hệ thống phát hiện đạo văn Yêu cầu lập chỉ mục được xử lý bởi các máy.
- Người sử dụng tương tác với các máy chủ web để yêu cầu lập chỉ mục một danh sách các tài liệu.
- Các máy chủ ứng dụng đọc các tài liệu trong.
- Hình 3: Các máy chủ ứng dụng xử lý một yêu cầu lập chỉ mục Tương tự như vậy, yêu cầu kiểm tra đạo văn.
- Người sử dụng tương tác với các máy chủ web để yêu cầu kiểm tra đạo văn một tài liệu cần kiểm tra..
- Các máy chủ ứng dụng sử dụng các thuật toán phát hiện đạo văn để xác định khả năng tài liệu cần kiểm tra được đạo văn từ một trong những tài liệu.
- Mỗi công việc kiểm tra đạo văn của một tài liệu là một công việc độc lập và được giao cho một trong các nút JPPF..
- Kết quả của công việc kiểm tra đạo văn của một tài liệu được trả về cho các máy chủ web theo định dạng JSON..
- Để đánh giá hệ thống phát hiện đạo văn như đề xuất, chúng tôi triển khai một hệ thống phát hiện đạo văn như Hình 2.
- Để kiểm tra hệ thống ở yếu tố độ chính xác, chúng tôi tạo ra một số tài liệu cần kiểm tra từ 145 tài liệu nguồn.
- Chúng tôi đo 4 yếu tố đánh giá PAN đã được sử dụng để đánh giá một hệ thống phát hiện đạo văn trong PAN (Kasprzak and Brandejs 2010).
- Bảng 1: Tạo các tài liệu cần kiểm tra.
- Để đánh giá thời gian tính toán, chúng tôi sử dụng hệ thống phát hiện đạo văn được triển khai ở phần trên để thực hiện hai tác vụ: lập chỉ mục và kiểm tra đạo văn cho các tài liệu cần kiểm tra trên hai tập dữ liệu: một tập từ cuộc thi quốc tế lần thứ 5 về phát hiện đạo văn (Potthast, Hagen et al., 2013) và một tập từ Trường đại học Cần Thơ (cơ sở dữ liệu luận án của sinh viên)..
- vụ lập chỉ mục tài liệu nguồn.
- Do đó, chúng tôi cấu hình hệ thống phát hiện đạo văn lập chỉ mục chỉ khi có tài liệu nguồn mới phát sinh trong cơ sở dữ liệu Đại học Cần Thơ.
- Bảng 4: Thời gian thực hiện kiểm tra đạo văn CSDL ĐHCT (3000 tài liệu nguồn) Số lượng tập tin cần.
- Bảng 4 trình bày các kết quả thí nghiệm của chúng tôi để đo thời gian tính toán khi thực hiện tác vụ phát hiện đạo văn cho các tài liệu cần kiểm tra.
- Khi số lượng các tài liệu cần kiểm tra tăng lên, thời gian thực thi tăng không nhiều (chỉ tăng gần tuyến tính).
- Kiến trúc hệ thống phát hiện đạo văn sử dụng JPPF để thực hiện nhiều công việc cùng một lúc cho thấy hiệu quả của nó trong trường hợp này..
- Đạo văn là một vấn nạn trong môi trường học thuật Việt Nam.
- Đến nay, vấn đề đạo văn vẫn chưa được giải quyết triệt để.
- Bên cạnh những chế tài nghiêm ngặt được áp dụng, các trường đại học Việt Nam cần có công cụ để ngăn chặn tình trạng đạo văn.
- Các công cụ có thể giúp cả giảng viên và sinh viên phát hiện và ngăn ngừa đạo văn, giúp giảm đạo văn trong môi trường học thuật Việt Nam..
- Trong bài báo này, chúng tôi trình bày phương pháp tiếp cận của chúng tôi để phát triển một hệ thống phát hiện đạo văn cho các cơ sở đại học Việt Nam, lấy Đại học Cần Thơ là nơi thực nghiệm mô hình.
- Phương thức chúng tôi sử dụng để phát triển hệ thống phát hiện đạo văn là sử dụng phương pháp của Kasprzak và JPPF.
- Hệ thống phát hiện.
- Các kết quả thử nghiệm trên cả hai tập dữ liệu (PAN và CSDL ĐHCT) cho thấy rằng hệ thống phát hiện đạo văn của chúng tôi có kết quả khá tốt trong cả hai thông số: thời gian tính toán và độ chính xác.
- Ngoài ra, sử dụng Google để tìm kiếm tài liệu tiềm năng cũng được xác định như là một hướng phát triển của đề tài nhằm mở rộng phạm vi phát hiện đạo văn.