« Home « Kết quả tìm kiếm

Mô hình cây phân loại sử dụng CARET


Tóm tắt Xem thử

- Mô hình cây phân loại sử dụ g CARET Bs.
- Giới thiệu caret là viết tắt ủa Classifi atio A d REgression Training Đ là ột công ụ đặ iệt với 2 ứ g dụ g chính: Mô hình dự báo và Machine learning (Máy họ ) caret giố g hư ột ỗ máy lớ tích hợp bên trong nó hàng t ă ơ phậ hỏ, chính là hữ g package chuyên dụ g cho mô hình hồi quy và phân loại.
- Caret hỗ t ợ tới 217 kiểu mô hình khác nhau, bao gồ 92 mô hình phân loại (bao gồ logistic, naive Bayes, kNN, decision tree.
- 52 mô hình hồi quy (bao gồ robust linear, quantile, neural network, fuzzy.
- 73 mô hình lưỡ g dụ g (bao gồ glm, gam, random forest, pls, vector a hi e…) Caret cung ấp ột giao thứ chung, tổ g quát cho toàn ộ các mô hình này Caret cho phép thự hiệ : Huấ luyệ (training), Tinh hỉ h (tuning), Kiể đị h (testing) các kiểu mô hình mà nó hỗ t ợ Ngoài ra caret còn cung ấp ột số hàm đặ iệt hỗ t ợ việ dự g mô hình dự báo, ví dụ huẩ ị, thă dò và ử lý số liệu t ướ khi dự g mô hình.
- Kiể đị h phâm hất mô hình, hoặ so sánh Cho 1 kiểu mô hình ất kì nào đó thuộ 1 trong 2 dạ g: hồi quy và phân loại Nhữ g gì serie này sẽ không đề ập: 1.
- Lý thu ết và nguyên tắ ủa ỗi loại mô hình 2.
- Cách diễ giải mô hình Series này dành cho các ạ đ có kiế thứ và kỹ ă g hất đị h về mô hình dự báo và/hoặ mô hình phân loại.
- Ghi chú: Mô hình trong bài hỉ có ụ đí h minh họa.
- Mụ tiêu riêng ủa bài Bài này đề ập về 1 dạ g Mô hình CÂY (CART) dựa theo phươ g pháp ủa Breiman, Friedman, Olshen and Stone (1984).
- CART là ột kiểu mô hình cây lưỡ g dụ g ( ả hồi quy và phân loại), hư g bài này hỉ áp dụ g vào ụ đí h phân loại 1 iế kết uả hị phân.
- Huấ lu ệ mô hình ằ g kiể hứ g chéo 3.
- Trích uất ội dung mô hình 4.
- Kiể đị h khả ă g phân loại ủa mô hình Mụ tiêu quan t ọ g hất ủa bài là: tạo ả hứ g và sự tò mò cho tất ả các ạ hưa iết đế package caret.
- Lộ trình tổ g quát cho kiể hứ g chéo / caret 1 2 3 4 5 Chuẩ ị số liệu Thiết lập hế độ Huấ lu ệ và tinh hỉ h Kiể đị h mô hình Pha t ộ và phân chia huấ lu ệ và tinh mô hình hỉ h Hàm predict, Hàm train confusionMatrix Hàm trainControl multiClassSummary Hàm expand.grid 2 2.
- Sơ đồ Kiể hứ g chéo Mẫu nguyên thủy (N) 80% 20% Phân dùng để huấ luyệ (Train) Phầ dùng để kiể đị h (Test) 1 Phân chia TRAIN TEST Phân loại thự tế 2 Huấ luyệ Kiể hứ g chéo lặp lại (k=5,n=10) (Xác suất = 1) Phân chia gẫu nhiên ẫu Huấ luyệ thành 5 khối ằ g nhau Confusion matrix Kappa coefficient (tươ g hợp) Kiể đị h mô hình Mc-Nemar test 4 Sensitivity (độ hạ ) Trên ẫu « Test » 3 4 khối để dự g mô hình 1 khối kiể hứ g Specificity (độ đặ hiệu) Accuracy (độ chính xác chung) Tinh … hỉ h Kiể hứ g Log-Loss (sai iệt dự báo) Mô hình ROC Dự báo xác suất Lặp lại quy trình này 10 lầ , gẫu nhiên Phân loại dự báo Mô hình sau cùng Kiể tra ROC, Kappa, độ chính xác Kết luậ Khả ă g phân loại ủa mô hình 2 3.
- Class là iế kết uả: phân loại khối u vú: lành tính hay ác tính V3 : uniformity of cell shape.
- Mụ tiêu ủa chúng ta là xây dự g ột mô hình CART cho phép phân loại khối u V8:normal nucleoli