« Home « Kết quả tìm kiếm

Dự báo kết quả học tập bằng kỹ thuật học sâu với mạng nơ-ron đa tầng


Tóm tắt Xem thử

- DỰ BÁO KẾT QUẢ HỌC TẬP BẰNG KỸ THUẬT HỌC SÂU VỚI MẠNG NƠ-RON ĐA TẦNG.
- Dự báo kết quả học tập là một chủ đề đang được quan tâm trong lĩnh vực giáo dục đào tạo.
- Dự báo sớm kết quả học tập có thể giúp sinh viên lựa chọn học phần phù hợp với năng lực cá nhân, giúp nhà quản lý và giảng viên xác định được những sinh viên cần được quan tâm hỗ trợ nhiều hơn để hoàn thành tốt học phần, giảm tình trạng cảnh báo học vụ hoặc buộc thôi học do kết quả học tập kém, từ đó tiết kiệm được thời gian chi phí cho cả sinh viên, gia đình, nhà trường và xã hội.
- Bài viết này đề xuất một phương pháp dự báo kết quả học tập của sinh viên bằng kỹ thuật học sâu nhằm khai thác cơ sở dữ liệu trong hệ thống quản lý sinh viên tại các trường đại học.
- Dữ liệu sau khi thu thập được phân tích, tiền xử lý dữ liệu, thiết kế và huấn luyện mạng nơ-ron đa tầng.
- Kết quả thực nghiệm cho thấy mô hình đề xuất cho kết quả dự đoán khá chính xác và hoàn toàn khả thi để áp dụng vào thực tế..
- Dự báo kết quả học tập bằng kỹ thuật học sâu với mạng nơ-ron đa tầng.
- Thời gian gần đây, tình trạng sinh viên ở các viện, trường bị cảnh báo học vụ hoặc buộc thôi học đang có chiều hướng gia tăng.
- Chẳng hạn, tại Trường Đại học Cần Thơ, nếu như học kỳ 1 năm học số sinh viên bị cảnh báo học vụ một học kỳ là 886 và hai học kỳ là 125 thì con số này trong học kỳ 1 năm học 2019-2020 lần lượt là 986 và 196 (Đại học Cần Thơ, 2020).
- Một trong những nguyên nhân chính dẫn đến kết quả học tập không tốt của sinh viên là do chưa lựa chọn đúng những học phần phù hợp với khả năng của mình.
- Điều này dẫn đến việc sinh viên phải học kéo dài thời gian học tập so với kế hoạch ban đầu, lãng phí thời gian, tiền của không chỉ của gia đình mà cả nhà trường và xã hội..
- Vì vậy, dự báo kết quả học tập của sinh viên là một chủ đề nghiên cứu quan trọng trong khai thác dữ liệu giáo dục được nhiều nhà nghiên cứu quan tâm (Guo et al., 2015, Tanuar et al., 2018, Altabrawee et al., 2019)..
- (2011), dự báo kết quả học tập của sinh viên là công việc quan trọng trong khai thác dữ liệu giáo dục.
- kiến thức của sinh viên có thể được cải thiện và tích lũy theo thời gian.
- Từ ý tưởng này, một cách tiếp cận sử dụng kỹ thuật phân rã ma trận có ảnh hưởng bởi yếu tố thời gian (tensor factorization - TF) đã đề xuất để dự báo kết quả học tập của sinh viên.
- Với phương pháp này, nhóm tác giả có thể cá nhân hóa dự báo cho từng sinh viên cụ thể.
- Kết quả thực nghiệm trên hai tập dữ liệu lớn cho thấy việc kết hợp các kỹ thuật dự báo vào quá trình phân rã ma trận là một cách tiếp cận hiệu quả và đầy hứa hẹn..
- Việc sử dụng thư viện mã nguồn mở phục vụ cho công việc dự báo cũng được sử dụng nhiều trong thời gian gần đây.
- Huynh-Ly and Thai-Nghe (2013) đã xây dựng hệ thống dự báo kết quả học tập của sinh viên sử dụng thư viện hệ thống gợi ý mã nguồn mở MyMediaLite.
- Với cơ sở dữ liệu điểm thu thập được từ hệ thống quản lý kết quả học tập, nhóm tác giả đã đề xuất sử dụng kỹ thuật kỹ thuật phân rã ma trận thiên vị (biased matrix factorization-BMF) để dự đoán kết quả học tập của sinh viên, từ đó làm cơ sở giúp sinh viên lựa chọn học phần phù hợp hơn..
- chính xác của dự báo.
- Kết quả nghiên cứu giúp cho giáo viên và nhà quản lý giáo dục có giải pháp phù hợp nhằm cải thiện kết quả học tập của sinh viên có quá trình học tập không ổn định.
- (2017) sử dụng các kỹ thuật lọc cộng tác (collaborative filtering - CF), phân rã ma trận (matrix factorization - MF) và kỹ thuật restricted boltzmann machines (RBM) để phân tích một cách có hệ thống dữ liệu được thu thập từ một trường đại học.
- Kết quả cho thấy, kỹ thuật RBM dự báo kết quả học tập của sinh viên tốt hơn so với các kỹ thuật còn lại..
- Thực tế, các giải thuật lọc cộng tác được sử dụng phổ biến trong các hệ thống gợi ý do tính đơn giản và hiệu quả.
- Tuy nhiên, độ thưa thớt của dữ liệu làm hạn chế tính hiệu quả của các giải thuật này và rất khó để cải thiện hơn nữa kết quả gợi ý.
- Do đó, các mô hình kết hợp các thuật toán gợi ý lọc cộng tác với công nghệ học sâu được quan tâm nhiều hơn..
- Sau đó, các đặc tả tiềm ẩn làm dữ liệu đầu vào (input) của mô hình học sâu (deep neural network model).
- Thực nghiệm trên 3 tập dữ liệu cho thấy mô hình đề xuất cải thiện hiệu quả gợi ý rất tốt so với các mô hình gợi ý truyền thống..
- Một số tiếp cận khác kết hợp mô hình lọc cộng tác với học sâu cũng được Fu et al.
- (2019) đề xuất..
- Với cách tiếp cận này, trong giai đoạn dự báo, một mạng nơ-ron truyền thẳng (feed-forward neural networks) dùng để mô phỏng sự tương tác giữa user và item, trong đó các véc-tơ biểu diễn ở giai đoạn tiền xử lý được sử dụng làm đầu vào của mạng thần kinh.
- Các thực nghiệm dựa trên hai bộ dữ liệu MovieLens 1M và MovieLens 10M được thực hiện để kiểm chứng tính hiệu quả của phương pháp này và cho kết quả rất khả quan..
- Bài viết này đề xuất sử dụng kỹ thuật học sâu với mạng nơ-ron truyền thẳng đa tầng (multi layer perceptron - MLP) để xây dựng mô hình dự đoán kết quả học tập của sinh viên đối với các học phần mới dựa trên kết quả của các học phần trước đó đã học..
- Ngoài ra, để cải thiện kết quả dự đoán, chúng tôi cũng xem xét một số thông tin khác như điểm tuyển sinh, ngành học, giảng viên,… để đưa vào mô hình đề xuất..
- 2 MẠNG NƠ-RON ĐA TẦNG.
- Mô hình mạng nơ-ron thường được sử dụng rộng rãi, nhất là mô hình MLP.
- Mạng MLP hoạt động như sau: tại tầng vào, các nơ-ron nhận tín hiệu vào xử lý (tính tổng trọng số, gửi tới hàm kích hoạt) rồi cho ra kết quả (là kết quả của hàm kích hoạt).
- kết quả này sẽ được truyền tới các nơ-ron thuộc tầng ẩn thứ nhất.
- các nơ-ron tại đây tiếp nhận như là tín hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn thứ 2.
- quá trình tiếp tục cho đến khi các nơ-ron thuộc tầng ra cho kết quả..
- Hình 1: Minh họa một mạng MLP gồm 2 tầng ẩn và 2 tầng đầu vào và đầu ra 3 XÂY DỰNG MÔ HÌNH DỰ BÁO KẾT.
- QUẢ HỌC TẬP.
- thống quản lý sinh viên, dữ liệu tiến hành tiền xử lý, huấn luyện mạng MLP và đánh giá kết quả.
- 3.1 Thu thập và tiền xử lý dữ liệu.
- Để kiểm chứng mô hình đề xuất, nghiên cứu sử dụng dữ liệu thu thập từ kết quả điểm môn học của sinh viên hệ đào tạo chính quy của Trường Đại học Cần Thơ, tuy nhiên mô hình này hoàn toàn có thể sử.
- Dữ liệu thu thập bắt đầu từ năm học 2007-2008 đến năm học với số lượng mẫu được khảo sát là 3.828.879 trên kết quả 4.699 môn học của 83.993 sinh viên thuộc 16 đơn vị với số lượng chi tiết như Bảng 1..
- Bảng 1: Dữ liệu khảo sát phân bổ theo khoa.
- Sinh viên Số.
- Trong thực tế, các hệ thống quản lý kết quả học tập của sinh viên có rất nhiều thuộc tính như trình bày một phần trong Hình 3.
- Dựa trên các nghiên cứu trước đây (Nguyen Thai et al., 2007) và tiền thực nghiệm, nghiên cứu này chỉ giữ lại một số thuộc tính (điểm trung bình, ngành học, giới tính, điểm tuyển sinh đầu vào, hộ khẩu) và bổ sung một số thuộc tính quan trọng ảnh hưởng đến dự đoán kết quả học tập, chi tiết các bước tiền xử lý được mô tả dưới đây..
- Bước 1: Loại bỏ các thuộc tính dữ liệu không liên quan như học tên sinh viên, tên môn học, tên giảng viên, lịch học, ngày vào đoàn/đảng….
- Bước 2: Thực hiện loại bỏ dữ liệu nhiễu và tiền xử lý đối với phần điểm của sinh viên: trong đó có các dữ liệu như điểm miễn (-2), điểm chưa hoàn tất học phần (-1), điểm rút học phần (-5), những trường hợp sinh viên đăng ký nhưng không tham gia.
- học tập (null), những sinh viên không có điểm tuyển sinh đầu vào (18% dữ liệu nhiễu trên tập dữ liệu khảo sát).
- Trong trường hợp dữ liệu môn học là ở học kỳ đầu thì gán giá trị 0 cho điểm trung bình học kỳ, điểm trung bình tích lũy, tổng điểm tích lũy, tổng số tín chỉ tích lũy của học kỳ trước..
- Bước 4: Xử lý dữ liệu dạng chuỗi: Dữ liệu đa phần là kiểu chuỗi nên chúng tôi thực hiện “số hóa”.
- dữ liệu.
- Ví dụ mã sinh viên được nhập ban đầu theo kiểu chuỗi, chúng tôi chuyển sang thành ID kiểu số..
- Hình 3: Mô hình quan hệ thực thể (entity relationship diagram - ERD) trích ra từ hệ thống quản lý kết quả học tập.
- 3.2 Xây dựng mô hình dự đoán dùng mạng MLP.
- Hình 4: Kiến trúc mạng MLP được đề xuất trong dự đoán kết quả học tập.
- Dữ liệu đầu vào cho mạng nơ-ron được đề xuất là gồm 18 thuộc tính với mô tả chi tiết trong Bảng 2..
- Bảng 2: Mô tả thuộc tính dữ liệu đầu vào Stt Thuộc tính Mô tả.
- 1 idsv ID sinh viên 2 f_gioitinh Giới tính.
- Đầu ra của mô hình là điểm môn học của sinh viên theo thang điểm 4, với cách tính cụ thể như Bảng 3..
- Bảng 3: Mô tả dữ liệu đầu ra.
- Tầng ẩn thứ nhất có 256 node, sử dụng hàm kích hoạt là ReLU.
- thứ 2 và 3 có 256 node, sử dụng hàm kích hoạt là Sigmoid.
- tầng ẩn thứ 4 có 256 node, sử dụng hàm kích hoạt là ReLU.
- tầng ẩn thứ 5 có 8 node, sử dụng hàm kích hoạt là ReLU.
- tầng thứ 6 là tầng output có 1 node, sử dụng hàm kích hoạt là linear do giá trị đầu ra từ 0 đến 4.
- Ngoài ra, để tránh vấn đề overfitting khi huấn luyện dữ liệu, chúng tôi sử dụng kỹ thuật dropout với tỷ lệ 0,015 (Srivastava et al..
- Bên cạnh kỹ thuật dropout, chúng tôi sử dụng một kỹ thuật khác vừa để hạn chế vấn đề overfitting vừa rút ngắn thời gian huấn luyện mạng là kỹ thuật Early Stopping với giá trị epoch xem xét là 5.
- 4 ĐÁNH GIÁ KẾT QUẢ.
- 4.1 Dữ liệu huấn luyện và kiểm tra.
- Dữ liệu thu thập được chia thành hai tập dữ liệu huấn luyện (train) và kiểm tra (test) theo trình tự thời gian.
- Dữ liệu điểm giai đoạn đầu dùng làm tập train, giai đoạn sau dùng làm tập test.
- Mục đích việc chia dữ liệu như trên là để bám theo thực tế: dựa trên các môn mà sinh viên đã học để dự đoán cho các môn trong học kỳ tiếp theo.
- Chi tiết phân phối dữ liệu theo thang điểm từ 0 đến 4 được trình bày trong Hình 5 và Hình 6..
- Kết quả cho thấy dữ liệu chủ yếu tập trung ở phần điểm trên 3.0, những phần dữ liệu các điểm khác ít hơn.
- Tỷ lệ thành phần điểm ở 2 phần dữ liệu huấn luyện và dữ liệu để kiểm tra chất lượng mô hình là khá tương đồng..
- Hình 5: Phân phối dữ liệu của tập huấn luyện.
- Hình 6: Phân phối dữ liệu của tập kiểm tra 4.2 Các độ đo dùng để đánh giá.
- Để đánh giá mô hình, nghiên cứu này sử dụng hai độ đo phổ biến là RMSE (root mean square error) và MAE (mean absolute error)..
- Các baseline đã được sử dụng để so sánh kết quả là User Average (dự đoán dựa trên kết quả trung bình của từng sinh viên), Item Average (dự đoán dựa trên kết quả trung bình của từng môn học).
- Ngoài ra, chúng tôi cũng so sánh với các phương pháp khác được sử dụng khá thành công trước đây trong dự đoán kết quả học tập là Collaborative Filtering như Item-kNN.
- Khanal et al., 2019) và kỹ thuật nổi trội (state-of- the-art) trong lĩnh vực Hệ thống gợi ý là Matrix Factorization (Koren et al., 2009) đã được sử dụng khá thành công trong dự đoán kết quả học tập..
- 4.4 Kết quả thực nghiệm.
- Để tránh tính ngẫu nhiên của giải thuật, mỗi phương pháp được thực hiện 10 lần và tính kết quả trung bình độ lỗi trên 10 lần chạy (chi tiết được mô tả trong Hình 7 và Hình 8).
- Kết quả cho thấy mô hình đề xuất đã cải thiện được độ lỗi so với các phương pháp trước đây sử dụng trong dự đoán kết quả học tập.
- Kết quả của mô hình MLP cho kết quả tốt nhất ở cả 2 độ đo, trong đó với độ đo MAE, mô.
- hình này cho kết quả vượt trội so với những phương pháp còn lại.
- Mô hình dựa vào điểm trung bình của sinh viên cho kết quả kém nhất, trong khi mô hình ItemKNN có kết quả gần tương đương với mô hình đề xuất, trong khi kết quả của mô hình Matrix Factorization đứng ở vị trí “trung bình” trong tất cả các phương pháp được khảo sát..
- Kết quả cho thấy, việc dự đoán kết quả học tập nhằm xác định và phát hiện sớm các đối tượng sinh viên yếu kém cần được hỗ trợ, tránh việc cảnh báo học vụ và buộc thôi học.
- Ngoài ra, dự đoán kết quả học tập cũng nhằm xác định được các sinh viên giỏi làm nòng cốt để bồi dưỡng đào tạo, từ đó giúp ích rất nhiều cho bản thân sinh viên, gia đình và xã hội..
- 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài viết này đề xuất một phương pháp dự báo kết quả học tập của sinh viên bằng kỹ thuật học sâu nhằm khai thác cơ sở dữ liệu trong hệ thống quản lý sinh viên tại các trường đại học.
- Kết quả thực nghiệm cho thấy mô hình đề xuất cho kết quả dự đoán khá chính xác và hoàn toàn khả thi để áp dụng vào thực tế..
- Mô hình này có thể tiếp tục cải tiến bằng cách bổ sung các thuộc tính đầu vào như điểm kiểm tra chất lượng Anh văn đầu vào, điểm rèn luyện trong quá trình học tập tại trường.
- và hiệu chỉnh mô hình nhằm cải tiến hơn nữa kết quả dự đoán.
- Dự báo kết quả học tập của học sinh dựa trên sự kết hợp phương pháp gần đúng Taylor và các mô hình xám.
- Hệ thống dự đoán kết quả học tập của sinh viên sử dụng thư viện hệ thống gợi ý mã nguồn mở Mymedialite