« Home « Kết quả tìm kiếm

HỆ THỐNG HỖ TRỢ TƯ VẤN TUYỂN SINH ĐẠI HỌC


Tóm tắt Xem thử

- HỆ THỐNG HỖ TRỢ TƯ VẤN TUYỂN SINH ĐẠI HỌC Nguyễn Thái Nghe 1 và Trương Quốc Định 1.
- Phân loại văn bản, phân loại tin nhắn SMS, tư vấn tự động, tìm kiếm thông tin, hệ gợi ý Keywords:.
- Trong bài viết này, chúng tôi đề xuất một giải pháp xây dựng Hệ thống hỗ trợ tư vấn tuyển sinh bán tự động sử dụng kết hợp các kỹ thuật trong xử lý văn bản, máy học SVM và xử lý tin nhắn SMS trong hệ thống thông tin di động.
- Hệ thống tư vấn này có khả năng tiếp nhận câu hỏi của thí sinh từ trang Web/email hoặc qua tin nhắn SMS, sau đó, câu hỏi sẽ được phân loại tự động bằng máy học SVM để chuyển đến chuyên gia thích hợp trong từng lĩnh vực.
- Sau khi có câu trả lời từ chuyên gia, hệ thống sẽ phản hồi tức thì cho thí sinh.
- Bên cạnh đó, ngay sau khi thí sinh đặt câu hỏi, hệ thống sẽ xử lý và tìm độ tương đồng của câu hỏi hiện tại so với các câu đã được trả lời trước đây, nhằm gợi ý cho thí sinh có thêm thông tin.
- Thử nghiệm trên tập dữ liệu thu thập được từ 447 câu hỏi thuộc 8 lĩnh vực thường được nhiều thí sinh quan tâm cho thấy hệ thống đạt độ chính xác 82.33%.
- Độ chính xác này sẽ còn được cải thiện theo thời gian khi mà lượng câu hỏi đủ lớn cho mô hình máy học, vì thế, giải pháp đề xuất này sẽ mở ra một hướng mới trong hỗ trợ tư vấn tuyển sinh..
- Bên cạnh đó, một số tổ chức cũng đã thiết lập các trang web để nhận và trả lời các câu hỏi của thí sinh, như: tuvantuyensinh.vn, huongnghiep.tuvantuyensinh.vn.
- Tuy nhiên, các trang này đa phần là nhận câu hỏi của thí sinh sau.
- Chính vì thế, việc tư vấn tuyển sinh qua hệ thống tin nhắn sẽ đảm bảo tính tức thời và hiệu quả, nhằm giúp các em cập nhật thông tin, được giải đáp các câu hỏi một cách nhanh nhất trong tuyển sinh và những vấn đề liên quan.
- Từ những thực trạng trên, nhu cầu cần một hệ thống tư vấn tuyển sinh có thể hoạt động một cách tự động 24/7, để có thể hỗ trợ cả thí sinh lẫn gia đình là rất cần thiết.
- Tuy nhiên, vẫn chưa thấy có hệ thống nào có khả năng đáp ứng được các yêu cầu trên..
- Trong bài viết này, chúng tôi đề xuất một giải pháp xây dựng Hệ thống hỗ trợ tư vấn tuyển sinh (bán) tự động sử dụng kết hợp các kỹ thuật trong xử lý văn bản (xử lý ngôn ngữ tự nhiên), máy học SVM, và xử lý tin nhắn SMS trong hệ thống thông tin di động.
- Thử nghiệm trên tập dữ liệu thu thập được từ 447 câu hỏi thuộc 8 lĩnh vực khác nhau cho thấy hệ thống đạt độ chính xác khá tốt, vì thế, giải pháp đề xuất này sẽ mở ra một hướng mới trong hỗ trợ tư vấn tuyển sinh một cách tự động..
- 2 KIẾN TRÚC CỦA HỆ THỐNG.
- Kiến trúc của hệ thống được trình bày trong Hình 1.
- Ở đó, khi thí sinh cần được tư vấn, họ sẽ đặt câu hỏi thông qua email, website, hoặc tin nhắn SMS.
- Câu hỏi này sẽ được hệ thống xử lý (như tách từ, loại bỏ từ dừng, chọn từ khóa) và đưa vào bộ phân loại SVM.
- Câu hỏi sau khi được phân loại sẽ được gửi tới các chuyên gia (cán bộ chuyên trách) thuộc lĩnh vực tương ứng như Giáo vụ, Tài vụ, các ngành công nghệ thông tin.
- Ngay sau khi nhận được câu trả lời từ các chuyên gia hệ thống sẽ phản hồi tức thì cho thí sinh (qua email hoặc qua tin nhắn SMS tùy công cụ mà người hỏi sử dụng)..
- Bên cạnh đó, ngay sau khi thí sinh đặt câu hỏi và trong thời gian chờ câu trả lời từ chuyên gia, hệ thống sẽ tự động hiển thị các câu hỏi tương tự mà đã có câu trả lời trước đó thông qua chức năng tìm các câu hỏi tương đồng..
- Hệ thống này có khả năng làm việc song song để tiếp nhận và phản hồi các câu trả lời thông qua website, email và tin nhắn SMS, hoạt động liên tục 24/7 trong năm..
- Để đáp ứng được yêu cầu của hệ thống như đã mô tả, chúng tôi tiến hành xây dựng các modules và thực hiện các công việc như sau:.
- Xây dựng module quản lý, tiếp nhận và trả lời câu hỏi qua giao diện web (gồm cả việc quản lý, gửi và nhận email).
- Xây dựng module quản lý, tiếp nhận và trả lời câu hỏi qua SMS.
- Xây dựng module xử lý câu hỏi (tách từ, loại bỏ từ dừng, chọn từ khóa).
- Xây dựng module phân loại (tự động) câu hỏi theo từng lĩnh vực bằng kỹ thuật phân loại máy học véc-tơ hỗ trợ (SVM).
- Xây dựng module gợi ý các câu hỏi liên quan (dùng tf-idf và độ tương đồng Cosine).
- Phân tích, thiết kế và xây dựng hệ thống (nền web) hoàn chỉnh để tích hợp các module trên..
- Hình 1: Kiến trúc của hệ thống tư vấn tuyển sinh Do tin nhắn SMS rất ngắn và cô đọng, nên số lượng từ khóa không nhiều và ít khi lặp lại, chúng tôi đề xuất ba phương án chọn từ khóa là phương án thủ công, phương án tự động và kết hợp cả 2..
- Phương án chọn từ khóa thủ công: Hệ thống sẽ sử dụng những từ có trong danh sách từ khóa (tập đặc trưng văn bản) đã được xây dựng thủ công bởi các chuyên gia/admin.
- Ví dụ, liên quan đến lĩnh vực CNTT thì có những từ như Hệ thống thông tin, Khoa học máy tính, trí tuệ nhân tạo,….
- Phương án chọn từ khóa tự động: Hệ thống sẽ tự động chọn từ khóa bằng cách tách từ, loại bỏ các từ dừng (stopwords - là những từ thường xuất hiện trong văn bản nhưng không có giá trị.
- Sau khi có bộ từ khóa, hệ thống sẽ véc-tơ hóa chúng để làm đầu vào cho bộ phân lớp SVM.
- Hiện tại, trong giai đoạn thử nghiệm nên hệ thống vận hành theo cơ chế bán tự động, nghĩa là sau khi hệ thống phân loại câu hỏi, người quản trị sẽ kiểm tra kết quả và thực hiện phân loại lại (nếu có sai sót) để làm cơ sở (gán nhãn) cho việc xây dựng và huấn luyện lại mô hình sau này.
- 3.1 Xây dựng module tiếp nhận câu hỏi 3.1.1 Moulde tiếp nhận câu hỏi qua SMS Gửi tin nhắn SMS: Về tổng thể, có 2 cách để gửi tin nhắn SMS từ máy tính đến điện thoại di động:.
- Sau đó dùng tập lệnh AT (AT là từ viết tắt của ATtention) để chỉ thị cho điện thoại hoặc modem gửi tin nhắn SMS..
- Sau đó gửi tin nhắn SMS bằng cách sử dụng các giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway..
- Bất lợi của việc nhận tin nhắn theo cách này là modem không thể xử lý một số lượng lớn lưu lượng tin nhắn SMS truy cập..
- Sau đó việc gửi và nhận tin nhắn SMS thông qua tập lệnh AT.
- Cách 2: Truy cập đến Trung tâm tin nhắn (SMSC) hoặc SMS Gateway của mạng không dây..
- Mọi tin nhắn SMS nhận được sẽ được chuyển tiếp đến máy tính thông qua giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway..
- Trong nghiên cứu này, chúng tôi dùng thư viện SMSLIB 14 để hỗ trợ việc gửi và đọc tin nhắn SMS từ modem 3G và lưu vào cơ sở dữ liệu hệ thống..
- 3.1.2 Module tiếp nhận câu hỏi qua Web/Email Tương tự như những trang web truyền thống, người dùng sẽ thông qua một form để điền gửi các thông tin cần được tư vấn.
- Để gửi và nhận email, hệ thống sử dụng giao thức smtp để gửi và pop3 để nhận..
- Các câu hỏi sau khi được tiếp nhận sẽ được xử lý bằng các phương pháp như trong xử lý ngôn ngữ tự nhiên 234.
- Có thể dễ dàng tích hợp vào các hệ thống phân tích tiếng Việt khác.
- 3.3 Phân loại câu hỏi bằng SVM.
- Trong nghiên cứu này, chúng tôi cài đặt, huấn luyện và sử dụng SVM cho phân loại tin nhắn thông qua công cụ LibLinear 13.
- Hình 2: Quy trình phân loại câu hỏi 3.3.1 Phân loại câu hỏi bằng SVM.
- Tuy nhiên, hệ thống hoàn toàn có thể được mở rộng bằng cách thêm vào các nhóm lĩnh vực khác sau này..
- Quy trình phân loại câu hỏi bằng SVM được thực hiện như mô tả như trong Hình 2.
- Tập câu hỏi thu thập được sẽ được tách từ, loại bỏ từ dừng và lựa chọn từ khóa.
- 3.4 Xây dựng module gợi ý câu hỏi liên quan Ngay sau khi thí sinh đặt câu hỏi, trong thời gian chờ đợi trả lời, chúng tôi đề xuất xây dựng một module gợi ý các câu hỏi có liên quan đã được trả lời trước đây để thí sinh có thêm thông tin hỗ trợ quyết định.
- Sau khi xác định tf-idf, ta tạo ra tập các vector chứa chỉ số TF*IDF cho từng câu hỏi.
- Sau cùng là tính độ tương đồng Cosine của vec-tơ câu hỏi hiện tại (a) và các vec-tơ của các câu hỏi trước đây (b1, b2, …bn.
- Từ kết quả độ tương đồng Cosine, ta có thể chọn ra top-N câu hỏi tương đồng để gợi ý..
- 4 XÂY DỰNG HỆ THỐNG THÔNG TIN VÀ TÍCH HỢP CÁC MÔ MODULES.
- Tương tự như việc xây dựng các hệ thống thông tin quản lý khác, hệ thống này cũng được.
- phân tích, thiết kế, xây dựng và cài đặt và sau đó là tích hợp với các modules quản lý, phân loại câu hỏi.
- Trả lời các câu hỏi của thí sinh liên quan đến chuyên môn;.
- Phân loại lại tin nhắn nếu có sai sót.
- Cập nhật, phân loại tin nhắn.
- Cấu hình hệ thống.
- Trong đó, các thực thể chính của hệ thống bao gồm: Thí sính, Cán bộ, lĩnh vực và câu hỏi.
- Một câu hỏi có thể thuộc một hay nhiều lĩnh vực….
- Sau bước phân tích, thiết kế ta tiến hành cài đặt và tích hợp các modules vào hệ thống.
- Hệ thống tổng thể được xây dựng theo mô hình MVC trên nền ngôn ngữ Java (Spring MVC framewwork) với hệ quản trị cơ sở dữ liệu MySQL..
- Để thử nghiệm độ tin cậy của mô hình dự đoán, chúng tôi thu thập tập dữ liệu gồm 447 câu hỏi, trong đó có 235 câu hỏi (có dấu tiếng Việt) và 212 câu hỏi không có dấu tiếng Việt được hệ thống tự động sinh ra.
- Các câu hỏi trong tập dữ liệu này thuộc 8 lĩnh vực như đã trình bày trong Bảng 1, phân bố khá đồng đều như trong Hình 5, điều này sẽ giúp tránh tình trạng mất cân bằng dữ liệu (imbalanced data) sẽ làm ảnh hưởng đến kết quả phân lớp..
- Từ kết quả này ta nhận thấy rằng do câu hỏi qua tin nhắn SMS (email) rất ngắn nên tập dữ liệu biểu diễn cho các câu hỏi này rất thưa (sparse) vì.
- Hình 7 minh hoạ giao diện “Đặt câu hỏi” để gửi yêu cầu thông qua giao diện web.
- Trong thời gian chờ câu trả lời, hệ thống sẽ tự động gợi ý các câu hỏi liên quan (phần dưới của Hình 7) đến câu vừa hỏi thông qua module tính độ tương đồng của câu hỏi đang được truy vấn và các câu hỏi đã được trả lời trước đây, nhằm hỗ trợ thông tin tốt nhất cho thí sinh..
- Trả lời các câu hỏi liên quan đến chuyên môn:.
- Sau khi đăng nhập thành công, chuyên gia có thể trả lời các câu hỏi liên quan đến lĩnh vực mà họ đã đăng ký (nếu dùng giao diện web).
- Các câu hỏi này được chuyển cho từng cán bộ nhờ vào hệ thống phân loại câu hỏi tự động hoặc bán tự động (điều.
- phối viên sẽ chuyển) tùy thuộc vào việc cấu hình hệ thống..
- Phân loại lại câu hỏi: Được cài đặt cùng trang với phần trả lời câu hỏi, nếu chuyên gia thấy câu hỏi không đúng chuyên môn của mình thì họ sẽ phân loại lại câu hỏi đó để chuyển đến đúng cán bộ phụ trách, như minh họa trong Hình 8..
- Hình 7: Hệ thống tự động gợi ý các câu hỏi liên quan Các chức năng chính của người dùng là quản trị/điều phối viên:.
- Cập nhật, phân loại lại tin nhắn như của chuyên gia.
- Cấu hình hệ thống: Cho phép thay đổi một số thông số hệ thống như thời gian hệ thống lặp lại việc truy vấn và huấn luyện lại mô hình, số lượng tin nhắn để thực hiện huấn luyện lại,….
- Thống kê tin nhắn: Cho phép thống kê tổng số lượng câu hỏi hệ thống nhận được, số lượng tin nhắn đã trả lời, số lượng tin nhắn theo từng chuyên ngành, số lượng tin nhắn đã trả lời của từng cán bộ, theo từng tháng, từng năm….
- Hiện tại, hệ thống là một hệ bán tự động, mục đích chủ yếu là thu thập dữ liệu để xây dựng các mô hình phân loại nên trong quá trình vận hành hệ thống ngoài thực tế, hệ thống cần thường xuyên kiểm tra và huấn luyện lại các mô hình để nâng cao độ chính xác cho phân loại tự động.
- Sau một khoảng thời gian xác định, hệ thống sẽ tiến hành kiểm tra số lượng tin nhắn mới thu thập được, nếu số lượng tin nhắn đủ số lượng quy định để huấn luyện lại mô hình thì hệ thống sẽ thực hiện huấn luyện lại mô hình và sử dụng mô hình mới vào phân loại tin nhắn mới đến hệ thống..
- xây dựng tập dữ liệu tốt hơn sau này Hệ thống sẽ lặp đi lặp lại việc xây dựng lại bộ từ khóa và huấn luyện lại mô hình cho đến khi.
- lượng dữ liệu thu thập đủ lớn và độ chính xác phân loại là chấp nhận được thì hệ thống sẽ được chuyển sang giai đoạn hai của đề tài là xây dựng hệ thống hỗ trợ tư vấn tuyển sinh một cách tự động hoàn toàn..
- Hình 8: Các câu hỏi đã được phân loại tự động và cũng cho phép chuyên gia phân loại lại Ở module tư vấn qua tin nhắn SMS, để tránh sai sót và thuận lợi cho hệ thống nhận diện được đâu là tin nhắn câu hỏi của thí sinh, đâu là câu trả lời của cán bộ hoặc tin nhắn rác (spam SMS) thì câu trả lời theo quy tắc mà hệ thống đưa ra, chẳng hạn như:.
- Tin nhắn SMS từ hệ thống gửi đến cho cán bộ có cấu trúc: TVTS.
- mã câu hỏi + khoảng trắng + nội dung câu hỏi (-Tu: HeThongTuVanTuyenSinh) Khi chuyên gia trả lời câu hỏi, dùng cú pháp:.
- mã câu hỏi + khoảng trắng + nội dung câu trả lời.
- Ví dụ: Thí sinh đặt câu hỏi qua SMS: “Xin cho biết ngành công nghệ thông tin ra trường có thể làm việc ở đâu.
- Câu hỏi được hệ thống xử lý và chuyển đến chuyên gia: “TVTS#526 Xin cho biết ngành công nghệ thông tin ra trường có thể làm việc ở đâu.
- trong đó 526 là mã câu hỏi..
- Hình 9: Giao diện minh họa tư vấn qua tin nhắn SMS.
- Bài viết này đã đề xuất một giải pháp xây dựng Hệ thống tư vấn tuyển sinh bán tự động sử dụng kết hợp các kỹ thuật trong xử lý văn bản, máy học SVM và xử lý tin nhắn SMS trong hệ thống thông tin di động.
- Hệ thống tư vấn này có khả năng tiếp nhận câu hỏi của thí sinh từ trang Web hoặc qua tin nhắn SMS, sau đó, câu hỏi sẽ được phân loại tự động bằng máy học SVM để chuyển đến chuyên gia thích hợp trong từng lĩnh vực.
- Bên cạnh đó, ngay sau khi thí sinh đặt câu hỏi, hệ thống sẽ xử lý và tìm độ tương đồng của câu hỏi hiện tại so với các câu đã được trả lời trước đây, nhằm gợi ý cho thí sinh có thêm thông tin..
- Để hoàn thiện hơn, hệ thống cần được triển khai ngoài thực tiễn để thu thập thêm dữ liệu thực, cập nhật thêm bộ từ khóa, từ đó huấn luyện lại mô hình phân lớp nhằm đạt độ chính xác cao hơn..
- Xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng thông tin di động