« Home « Kết quả tìm kiếm

Sáng kiến kinh nghiệm THPT: Sử dụng thuật toán phân lớp cây quyết định để tư vấn định hướng nghề nghiệp cho học sinh THPT


Tóm tắt Xem thử

- SỬ DỤNG THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ĐỂ TƯ VẤN ĐỊNH HƯỚNG.
- Phân lớp dữ liệu.
- Thuật toán phân lớp cây quyết định.
- Xây dựng bộ dữ liệu.
- Mô hình phân lớp cho hệ thống định hướng nghề nghiệp.
- 4 CSDL Cơ sở dữ liệu.
- 5 PLDL Phân lớp dữ liệu.
- Với lý do đó tôi tập trung nghiên cứu thuật toán phân lớp Cây quyết định để xây dựng mô hình định hướng chọn nghề cho học sinh THPT dựa trên dữ liệu khảo sát..
- Dữ liệu khảo sát kết quả của các ngành nghề..
- Nghiên cứu thuật toán phân lớp cây quyết định..
- Sử dụng WEKA triển khai các kỹ lựa chọn đặc trưng trên bộ dữ liệu thử nghiệm với thuật toán phân lớp cây quyết định..
- Phương pháp phân lớp cây quyết định..
- Dữ liệu khảo sát thực tế dựa trên khả năng, sở thích, kỹ năng..
- Xây dựng hệ thống tư vấn định hướng nghề nghiệp cho học sinh THPT..
- Nghiên cứu về kỹ thuật phân lớp cây quyết định..
- Xác định bài toán cụ thể là xây dựng công cụ lựa chọn nghề nghiệp và chuẩn bị nguồn dữ liệu để xây dựng chương trình..
- Nghiên cứu các tài liệu liên quan đến thuật toán phân lớp cây quyết định..
- Nghiên cứu công cụ WEKA để thử nghiệm với thuật toán phân lớp cây quyết định..
- và sử dụng thuật toán phân lớp để định hướng tư vấn nghề cho học sinh THPT..
- Xây dựng mô hình định hướng chọn ngành nghề của những người đã làm việc dựa vào các đặc điểm của nghề nghiệp từ đó sử dụng các kỹ thuật phân lớp Cây quyết định..
- Sử dụng phần mềm WEKA để phân lớp dựa vào thuật toán cây quyết định hỗ trợ tư vấn định hướng chọn nghề cho học sinh THPT..
- Trong quá trình hoạt động, con người sản sinh ra nhiều tập dữ liệu.
- Tập dữ liệu học bao gồm tập các đối tượng đã được xác định lớp sẽ được sử dụng để tạo mô hình phân lớp dựa trên các đặc trưng của đối tượng trên tập dữ liệu học.
- Các luật phân lớp sẽ được sử dụng để xây dựng các bộ PLDL.
- Bước phân lớp (mô hình vừa xây dựng được sử dụng để dự đoán nhãn cho những lớp dữ liệu nào đó).
- 5 Ở bước học/huấn luyện, ta xây dựng mô hình phân lớp mô tả bộ xác định các lớp dữ liệu hoặc khái niệm.
- Ở bước này một thuật toán phân lớp xây dựng trên mô hình phân lớp bằng cách phân tích một tập huấn luyện hình thành từ bản ghi trong CSDL và các nhãn lớp liên kết giữa chúng.
- Do nhãn lớp của mỗi bản ghi huấn luyện đều được cấp sẵn nên bước này gọi là học có giám sát, có nghĩa là việc học của mô hình phân lớp là có giám sát ở chỗ nó được cho biết là mỗi bản ghi huấn luyện thuộc về lớp nào.
- Hình 1.2 (b): Bước phân lớp trong quá trình phân lớp hai bước.
- Bước thứ nhất của quá trình phân lớp còn có thể được xem như là việc học (hay tìm kiếm) một ánh xạ y=f (X) mà có thể dự đoán được nhãn lớp y liên kết với một bản ghi X cho trước.
- Nếu như ta dùng tập huấn luyện để đánh giá độ chính xác của mô hình phân lớp thì việc đánh giá này nhiều khả năng là quá lạc quan, bởi vì mô hình đó có khuynh hướng quá khớp dữ liệu.
- Để thực hiện việc đánh giá này, các bản ghi kiểm tra độc lập với các bản ghi huấn luyện, nghĩa là chúng không được dùng để xây dụng mô hình phân lớp..
- Độ chính xác của một mô hình phân lớp trên một tập kiểm tra xác định là tỷ lệ các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mô hình phân lớp ấy..
- Nhãn lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đoán lớp của mô hình phân lớp học ứng với bản ghi đó..
- Các cây quyết định được dùng cho phân lớp như thế nào? Cho một bản ghi X nào đó mà ta chưa biết nhãn lớp liên kết với nó, các giá trị thuộc tính của bản ghi đó được kiểm tra so với cây quyết định.
- Input: Tập dữ liệu huấn luyện S với I là tập đặc trưng và O là thuộc tính phân lớp..
- Ouput: Cây phân lớp – Tập luật phân lớp..
- 8 tính thuần nhất của một tập dữ liệu..
- Trong trường hợp các mẫu dữ liệu có 2 thuộc tính phân lớp thì “Yes.
- Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau:.
- Information Gain (Gain): Là đại lượng dùng để đo tính hiệu quả của một thuộc tính được lựa chọn cho việc phân lớp.
- Cho tập dữ liệu S gồm có n thuộc tính A i (i = 1, 2.
- Khi áp dụng thuật toán ID3 cho cùng một tập dữ liệu đầu vào và thử nhiều lần thì đều cho cùng một kết quả.
- Từ những việc khảo sát bằng những câu hỏi để đánh giá dựa trên năng lực, kỹ năng và sở thích của các ngành nghề được chọn và áp dụng thuật toán phân lớp dữ liệu chạy trên ứng dụng Weka để đưa ra cách nhìn tổng quát đa dạng, có cái nhìn đa chiều hơn có thể hỗ trợ việc định hướng nghề cho các em học sinh THPT..
- DỤNG THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH 2.1.
- Áp dụng thuật toán phân lớp cây quyết định cho bài toán tư vấn định hướng nghề nghiệp cho học sinh THPT Tây Hiếu.
- Sử dụng thuật toán ID3, xây dựng cây quyết định cho tập dữ liệu huấn luyện sau:.
- Tập CSDL ngành nghề - Bảng dữ liệu về ngành nghề.
- Dữ liệu thuộc tính ngành nghề: Giáo viên (GV).
- Thuộc tính này có 2 giá trị GL={Có, Không}.
- Khảo sát dữ liệu về các nhóm ngành nghề.
- Mô hình phân lớp Phân lớp dữ liệu.
- Tập dữ liệu.
- Thuộc tính này có 2 giá trị CT={Thích, Rất thích}.
- Bảng dữ liệu về ngành nghề.
- Bộ phân lớp sẽ được thực hiện như sau:.
- Chọn nút gốc của cây quyết định:.
- Tập dữ liệu hiện tại có 9 kết quả CABĐ và 5 kết quả GV.
- S Hơi tốt Có nghĩa là trong tập dữ liệu tại (S), có 2 kết quả CABĐ và 3 kết quả GV tại TD = Hơi tốt).
- Giá trị này phản ánh mức độ hiệu quả của một thuộc tính trong phân lớp..
- Xây dựng tiếp cây quyết định:.
- Nhánh bên trái cùng ứng với TD = Hơi tốt, có S Hơi tốt là [2+,3−] chưa phân lớp hoàn toàn nên vẫn phải tính toán chọn nút tại đây.
- Nhánh ở giữa ứng với TD = Tốt, tập dữ liệu tại nhánh này đã hoàn toàn phân lớp dương với 4+ và 0−.
- Xét thuộc tính GL, có:.
- Cây quyết định hoàn chỉnh:.
- Hình 2.4: Cây quyết định hoàn chỉnh.
- Explorer: Lựa chọn dữ liệu và thực hiện khai phá dữ liệu với các thuật toán cơ bản trong khai phá dữ liệu.
- Ta sẽ sử dụng CSDL được xử lý này chạy trên phần mềm ứng dụng WEKA sử dụng thuật toán phân lớp cây quyết định.
- Để tiến hành phân lớp được bộ CSDL này ta phải chuyển đổi kết quả của Bảng kỹ năng, tính cách và sở thích từ phần mềm Excel (*.xls, *.xlsx) sau đó tiến hành lưu file thành file *.csv.
- Tiến hành phân lớp dữ liệu trong ứng dụng WEKA phiên bản 3.9.0 Bước 1: Khởi động ứng dụng WEKA phiên bản 3.9.0, sau đó chọn Explore Bước 2: Chọn Openfile… để lựa chọn tập dữ liệu trên máy.
- 21 Bước 3: Chọn mục classify để lựa chọn chức năng phân lớp dữ liệu.
- Bước 4: Lựa chọn thuật toán phân lớp và thiết lập các thông số cho giải thuật, chọn thuật toán và số lớp theo hướng dẫn (Hình 3.11)..
- Hình 3.6: Công cụ phân lớp (Classify) trên WEKA.
- Chọn thuật toán để tiến hành phân lớp.
- Hình 3.7: Chọn tên thuật toán để tiến hành phân lớp trên WEKA.
- 22 Bước 5: Chọn trường cần phân lớp (Chọn trường NN) và Start để tiến hành phân lớp.
- Sử dụng kết quả của hệ thống câu hỏi trắc nghiệm dựa trên kỹ năng, năng lực, sở thích của các ngành nghề được khảo sát để định hướng ngành nghề cho học sinh sử dụng thuật toán phân lớp cây quyết định.
- Từ bảng CSDL thu thập chứa kết quả của kỹ năng, năng lực, sở thích của các đối tượng thuộc các ngành nghề được khảo sát sử dụng thuật toán phân lớp cây quyết định để tiến hành phân lớp xem sự lựa chọn có phù hợp không? Để có thể đưa ra các tư vấn giúp học sinh có quyết định chắc chắn và hợp lý nhất trong việc lựa chọn nghề của mình sau này..
- Hình 3.8: Kết quả hiển thị của phân lớp dữ liệu bằng thuật toán cây quyết định.
- 23 Hình 3.9: Dữ liệu tiền xử lý năm học .
- Dữ liệu tiền xử lý năm học .
- 24 Ta tiến hành phân lớp các dữ liệu trên để dựa vào những dữ liệu đã có để nhận xét, phân tích đánh giá qua đó ta có thể định hướng tư vấn chính xác có cơ sở khoa học tăng tính hiệu quả cho các đối tượng được tư vấn..
- Chọn chia dữ liệu theo kiểu Cross – Validation (10 – Folds) Áp dụng thuật toán cây quyết định để phân lớp CSDL.
- Sử dụng thuật toán phân lớp cây quyết định để phân lớp cho bài toán.
- Hình 3.12: Kết quả phân lớp của thuật toán phân lớp cây quyết định Hình 3.11.
- Bảng đánh giá kết quả khi sử dụng phân lớp bằng thuật toán cây quyết định cho học sinh trường THPT Tây Hiếu để tư vấn định hướng nghề nghiệp cho học sinh..
- Kết quả đánh giá dựa vào dữ liệu thu thập thực tế thông qua phiếu khảo sát được xây dựng dựa vào các câu hỏi liên quan đến kỹ năng, sở thích, tính cách, nền tảng giáo dục (PHỤ LỤC A)..
- Nghề Giáo viên: Phân lớp nhãn A.
- Nghề Công An và Bộ đội: Phân lớp nhãn B Nghề Kinh Doanh: Phân lớp nhãn C.
- Nghề Y: Phân lớp nhãn D.
- Nghề Xây dựng: Phân Lớp nhãn E.
- Nghề Công nghệ thông tin: Phân lớp nhãn F.
- Đề tài “SỬ DỤNG THUẬT TOÁN PHÂN LỚP CÂY QUYẾT ĐỊNH ĐỂ TƯ VẤN ĐỊNH HƯỚNG NGHỀ NGHIỆP CHO HỌC SINH THPT” đã tìm hiểu nghiên cứu thuật toán cây quyết định để phân lớp dữ liệu dựa vào những đặc trưng của các ngành nghề, được khảo sát từ thực tế, theo đó có thể định hướng tư vấn chọn nghề nghiệp cho học sinh THPT dựa vào kỹ năng, tính cách, sở thích, nền tảng giáo dục..
- Đã trình bày được hệ thống những kiến thức tổng quan liên phân lớp dữ liệu sử dụng thuật toán cây quyết định..
- Nghiên cứu công cụ khai phá dữ liệu Weka..
- Xây dựng mô hình định hướng chọn ngành nghề của những người đã làm việc dựa vào các đặc điểm của nghề nghiệp sử dụng thuật toán phân lớp cây quyết định..
- Kiểm tra xem việc sử dụng thuật toán phân lớp Cây quyết định để dựa vào kỹ năng, năng lực và sở thích để tư vấn định hướng học sinh trong việc chọn ngành nghề hay không?.
- 30 - Nghiên cứu sâu hơn các yếu tố liên quan đến nghề nghiệp để xây dựng được bộ dữ liệu có ý nghĩa hơn cho việc tư vấn nghề nghiệp..
- Tôi mong rằng đề tài nghiên cứu tiếp theo sẽ sử dụng nhiều hơn nữa các lĩnh vực ngành nghề trong việc định hướng tư vấn chọn nghề nghiệp cho học sinh THPT cũng như sử dụng nhiều thuật toán phân lớp trong các bài toán quản lý trường THPT giải quyết được nhiều vấn đề trong ngành giáo dục.
- Nguyễn Đặng Thế Vinh, Ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh THPT, luận văn Thạc sĩ, Đại học Quốc tế Hồng Bàng, 2014

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt