- HỒI QUY TUYẾN TÍNH d Nội dung Hồi quy tuyến tính Khái niệm Phân biệt với mô hình phân lớp Các loại mô hình tuyến tính Ứng dụng Hồi quy tuyến tính với một biến Hồi quy tuyến tính với nhiều biến Hồi quy đa thức Biểu thức chuẩn 2 d •Như thế nào để dự đoán giá nhà?. - –Tập hợp các dữ liệu liên quan đến giá nhà.. - –Vẽ đường thẳng xuyên qua dữ liệu có sẵn •Giá nhà có thể là 150. - 230 d Bài toán hồi quy • Cho trước một tập dữ liệu đã có “ câu trả lời. - đúng ” hay đã cung cấp các giá trị output. - •Thuật toán sẽ học từ dữ liệu có sẵn này (training data) để rút ra được mô hình dự đoán (predictor). - 5 •Nếu giá trị output là một. - giá trị liên tục , ta có bài toán hồi quy (regression). - •Nếu giá trị output là rời. - d Một số kí hiệu • Tập huấn luyện của giá nhà •Kí hiệu. - m : số mẫu huấn luyện. - x : biến “input”/đặc trưng. - y : biến “output”/biến “target” (x,y): một mẫu huấn luyện (x i ,y i. - mẫu huấn luyện thứ i (i=1,…,m) 6 Size in feet 2 ( x ) Price. - d Nội dung Hồi quy tuyến tính Hồi quy tuyến tính với một biến Thể hiện mô hình Hàm chi phí Gradient Descent cho một biến Hồi quy tuyến tính với nhiều biến Hồi quy đa thức Biểu thức chuẩn 15 d Thể hiện mô hình •Hàm tuyến tính được thể hiện: ℎ. - 1 , ta có thể viết: ℎ. - 16 d Ví dụ hàm tuyến tính đơn biến 17 House sizes: d Hàm chi phí •Phương pháp học dựa trên việc đánh giá sự khác biệt giữa hàm h(x) so với y, gọi là hàm chi phí (cost function. - với m là số mẫu được huấn luyện. - dùng cho đạo hàm và chuẩn hóa h θ : hàm hồi quy tuyến tính đơn biến y i : output mong muốn •Mục tiêu là làm cho hàm chi phí nhỏ nhất. - 22 d Hình dạng hàm chi phí •Đơn giản nhất, cho. - d Hình dạng hàm chi phí y x. - tiểu , gradient descent sẽ tự. - 36 ở cực tiểu địa phương Giá trị hiện tại của. - Gradient descent có thể hội. - d Hồi quy tuyến tính với gradient descent •Đạo hàm từng phần cho hàm chi phí. - 37 d Thuật toán gradient descent 38 Cập nhật. - một cách đồng thời Cách tính đạo hàm từng phần của hàm chi phí. - Đây gọi là luật cập nhật LMS (least mean squares) d Các loại gradient descent (2/2) 42 Batch Gradient Descent Stochastic Gradient Descent - Đợi có hết dữ liệu rồi mới cập nhật các tham số. - -Có thể bắt đầu tiến trình ngay khi có một dữ liệu. - -Stochastic hiếm khi hội tụ đến cực tiểu và tham số sẽ làm cho hàm chi phí dao động xung quanh cực tiểu. - Tuy nhiên thực tế, gần đạt đến giá trị cực tiểu cũng đã đủ tốt. - Vì vậy, đối với tập dữ liệu lớn , người ta thường áp dụng phương pháp stochastic. - d Nội dung Hồi quy tuyến tính Hồi quy tuyến tính với một biến Hồi quy tuyến tính với nhiều biến Đa đặc trưng Hồi quy nhiều biến Gradient Descent cho nhiều biến Hồi quy đa thức Biểu thức chuẩn 43 d Đa biến •Đa biến ≡ đa đặc trưng (multiple feature) •Hàm hồi quy tuyến tính đa biến: 44. - –n: số đặc trưng. - input của mẫu huấn luyện thứ i. - giá trị của đặc trưng j. - trong mẫu huấn luyện thứ i. - 4 47 d Hàm hồi quy tuyến tính đa biến •Hàm hồi quy tuyến tính đa biến (multivariate linear regression): ℎ. - d Hàm hồi quy tuyến tính đa biến •Đặt. - Ta có thể viết. - Vector tham số (parameter vector) Vector đặc trưng (feature vector) d Ma trận thiết kế •Ma trận thiết kế (design matrix) cho giá trị nhập của các mẫu huấn luyện. - là vector m- chiều chứa các giá trị output tương ứng với các mẫu. - 69 d Hàm chi phí • Do ℎ. - 70 d Đạo hàm hàm chi phí •Áp dụng:. - cho bước 3 đạo hàm.. - cho bước 4 đạo hàm.. - •Đạo hàm hàm chi phí: 71 •Tìm cực trị bằng cách cho đạo hàm =0. - d Gradient descent vs. - normal equation 72 Gradient descent Normal equation - Cần chọn hệ số học. - d Giải thích theo xác suất (1/2) •Giả sử dữ liệu được phân bố theo xác suất chuẩn (gaussian. - Tìm maximum likelihood thông qua hàm log: •Như vậy, ta thấy rằng maximum likelihood, đồng nghĩa với việc minimum: 74 d HQTT có đánh trọng cục bộ •Hồi quy tuyến tính có đánh trọng cục bộ có dạng hàm chi phí sau: •Trọng số sẽ đánh giá độ ưu tiên cho từng điểm dữ liệu.. - –Những điểm có trọng số cao thì thuật toán sẽ cố chọn để làm cho hàm chi phí nhỏ.
Xem thử không khả dụng, vui lòng xem tại trang nguồn hoặc xem
Tóm tắt