Academia.eduAcademia.edu
Phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính đơn Trần Nam Hưng* Ngày 7 tháng 2 năm 2021 Tóm tắt nội dung Phương pháp bình phương nhỏ nhất là thuật toán xác định đường thẳng hợp lý nhất cho dữ liệu. Xấp xỉ theo phương pháp bình phương nhỏ nhất là một thuật toán thông dụng được khám phá và đề xuất chính thức bởi Adrien-Marie Legendre (1805) và Carl Friedrich Gauss (1795) ([1], p.225) với các chứng minh sử dụng đại số tuyến tính và giải tích. Ý tưởng cơ bản của bài toán là tìm một đường thẳng biểu thị mối liên hệ giữa hai đại lượng X ,Y như sau Y = β0 + β1 X, (1) khi cho trước dữ liệu mẫu có n quan sát (xi , yi ) , i ∈ {1 , , . . . , n} sao cho tổng khoảng cách từ điểm dữ liệu đến đường thẳng cần ước lượng là nhỏ nhất. Mục lục 1. Lời mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1. Một số khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2. Phương pháp bình phương nhỏ nhất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1. Bài toán mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Ước lượng hệ số . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3. Bàn luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4. Tóm lại . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 * E-mail: hungb1906052@student.ctu.edu.vn 1 1. Lời mở đầu Bài toán bình phương nhỏ nhất được chia thành hai loại: bình phương tuyến tính còn gọi là bình phương nhỏ nhất thông thường và bình phương nhỏ nhất phi tuyến. Vấn đề trong bài viết này chỉ dừng lại ở việc đi tìm phương trình đường thẳng bình phương nhỏ nhất y = β0 + β1 x khi cho các quan sát là các điểm (xi , yi ) , i ∈ {1 , , . . . , n}. 1.1. Một số khái niệm cơ bản Thuật ngữ "hồi quy" theo Từ điển các thuật ngữ thống kê Oxford ([9], p.417) nguyên là do Glton sử dụng để chỉ quan hệ trong nghiên cứu lý thuyết di truyền, nhưng rồi sau đó nó lại trở thành tên gọi cho một phương pháp thống kê Định nghĩa 1 (Hồi quy tuyến tính). Phương pháp thống kê nhằm nghiên cứu mối quan hệ giữa một số biến đầu vào với biến đầu ra (biến cần giải thích). Nếu biến ngẫu nhiên Y biểu diễn được thành hai thành phần, thành phần đầu tiên phụ thuộc vào biến ngẫu nhiên X và thành phần thứ hai là sai số ngẫu nhiên ε, tức là nếu Y = f (X) + ε thì hồi quy của Y theo X là phương trình Ŷ = f (X) với giả thiết kỳ vọng của ε bằng 0. Định nghĩa vẫn đúng trong trường hợp mở rộng, khi X không chỉ là một biến mà là một tập k biến X1 , X2 , . . . , Xn . Định nghĩa 2 (Ma trận Hess). Cho một hàm số thực f (x1 , x2 , . . . , xn ) nếu tất cả đạo hàm từng phần bậc hai của f tồn tại, thì ma trận Hess của f  2 ∂ f (x) ∂2 f (x) ···  ∂x2 ∂x ∂x  1 2  2 1  ∂ f (x) ∂2 f (x)  ··· 2 ∂x ∂x ∂x H , 2 1 2  ..  .. .. .  . .  2 2  ∂ f (x) ∂ f (x) ··· ∂xn ∂x1 ∂xn ∂x2 là ma trận  ∂2 f (x) ∂x1 ∂xn    ∂2 f (x)   ∂x2 ∂xn   ..  .   ∂2 f (x)  ∂xn2 Định lí 1 (Điều kiện đủ để hàm hai biến có cực trị). Giả sử hàm f (x , y) có các đạo hàm riêng cấp hai liên tục trong lân cận của điểm (x0 , y!0 ), với (x0 , y0 ) là điểm dừng của f (x , y) h 1 h2 . Khi đó, và H là ma trận Hess với các phần tử là h 3 h4 2 i. Nếu det H > 0 thì f đạt cực trị địa phương tại (x0 , y0 ): • Với h1 > 0 thì f đạt cực tiểu địa phương tại (x0 , y0 ), • Với h1 < 0 thì f đạt cực đại địa phương tại (x0 , y0 ). ii. Nếu det H < 0 thì f không đạt cực trị địa phương tại (x0 , y0 ). iii. Nếu det H = 0 thì ta không thể khẳng định gì về sự tồn tại của cực trị. 2. Phương pháp bình phương nhỏ nhất 2.1. Bài toán mở đầu Từ một bộ các dữ liệu mẫu gồm n quan sát {(x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn )}, ta giả sử β̂0 và β̂1 lần lượt là ước lượng xấp xỉ đối với β0 và β1 . Khi đó phương trình đường thẳng y = β̂0 + β̂1 x là đường hồi quy tuyến tính ước lượng cho mô hình (1) từ dữ liệu mẫu. Gọi ŷi = β̂0 + β̂1 xi là tung độ của các quan sát trong dữ liệu mẫu. Tính "xấp xỉ tốt nhất" giữa ŷk với yk được đặc trưng bởi độ lớn của hiệu εk = |yk − ŷk |, đây chính là sai số giữa đường thẳng cần ước lượng và dữ liệu. Nếu chúng ta sử dụng hàm tổng giá trị tuyệt đối để ước lượng sai số thì các công cụ giải tích sẽ không thể thực hiện được vì hàm giá trị tuyệt đối không khả vi để lấy đạo hàm riêng ([7], p.4). Vì vậy, để mô hình hồi quy mẫu càng phù hợp cho việc mô tả quan hệ tuyến tính giữa X và Y . Ta cần tìm giá trị β̂0 và β̂1 sao cho tổng bình phương các sai số L (β0 , β1 ) = ∑ ε2 đạt giá trị nhỏ nhất. Tóm lại mục tiêu của chúng ta là giải bài toán cực trị không điều kiện cho hàm bình phương sai số ä2 Ä L (β0 , β1 ) , ∑ yi − β̂0 − β̂1 xi . 2.2. Ước lượng hệ số (i) Điều kiện cần Trong giải tích đa biến, chúng ta biết rằng để tìm cực trị không điều kiện cho hàm bình phương L thì đòi hỏi ta phải tìm các giá trị của β̂0 và β̂1 sao cho các phương trình đạo hàm riêng bằng 0. Ta có điều kiện cần để L có cực trị là ∂L (β̂0 , β̂1 ) ∂β̂0 ∂L (β̂0 , β̂1 ) = 0, ∂β̂1 Để tìm điểm tới hạn của L , ta giải hệ phương trình sau 3 = 0. (2)  Çn å  n Ä ä2 Ä ä  ∂     y − β̂ − β̂ x = 0 −2 =0 y − β̂ − β̂ x   i i i i 0 1 0 1 ∑  ∂β0 ∑  i=1 i=1 Çn å ⇔ n Ä ä ä2 Ä   ∂     −2 xi = 0 y − β̂ − β̂ x y − β̂ − β̂ x = 0   i i 0 1 ∑ ∑ i 0 1i  ∂β 1 i=1 i=1 Hệ phương trình trên tương đương với ( ∑ yi = β̂0 ∑ 1 + β̂1 ∑ xi ∑ xiyi = β̂0 ∑ xi + β̂1 ∑ xi2 (3) Tiếp tục giải hệ phương trình tuyến tính với hai ẩn là β̂0 và β̂1 , ta đưa hệ phương trình (3) về dạng ma trận. Khi đó ! ! β̂0 ∑ 1 ∑ xi · = β̂1 ∑ xi ∑ xi2 ∑ yi ∑ xi yi ! (4) Điều kiện để phương trình trên có nghiệm là ma trận các hệ số của β̂0 và β̂1 có định thức khác 0. Ta có detC = ∑ 1 ∑ xi = ∑ 1 ∑ xi2 − ∑ xi ∑ xi = n ∑ xi2 − ∑ xi ∑ xi2 ∑ xi 2 1 ∑ xi là trung bình của bộ dữ liệu mẫu ban đầu. Khi đó định thức trên được n biến đổi thành Gọi x = Å detC = n ∑ xi2 − (nx)2 =n 2 ã 1 1 2 2 xi − x = n2 · ∑(xi − x)2 . ∑ n n Do đó, miễn là tất cả các xi là không đồng thời bằng nhau từng đôi một thì detC sẽ khác 0 và ma trận C sẽ khả nghịch. Từ đó, ta viết lại nghiệm của hệ phương trình (3) dưới dạng nghiệm duy nhất như sau  n ∑ xi yi − ∑ xi · ∑ yi   β̂1 = n ∑ xi2 − (∑ xi )2 Ä ä   β̂0 = 1 ∑ yi − β̂1 ∑ xi n Ä ä Vậy L (β̂0 , β̂1 ) có một điểm tới hạn với tọa độ β̂0 , β̂1 được xác định như (5). (5) (ii) Điều kiện đủ Để xét điều kiện đủ, ta cần kiểm tra xem hai giá trị β̂0 và β̂1 tìm được như (5) thì L có đạt giá trị nhỏ nhất hay không. Xét ma trận Hess 4 Ñ H, Vì H1 , L ′′ β̂0 β̂0 Lβ̂′′ β̂ Lβ̂′′ β̂ Lβ̂′′ β̂ 1 0 Lβ̂′′ β̂ 1 1 0 0 é = 0 1 2n 2 ∑ X1 2 ∑ Xi 2 ∑ Xi2 ! = 2n > 0 và det H = 4n ∑ Xi2 −4 ∑ Xi 2 î = 4 n ∑ Xi2 − ∑ Xi 2 ó = 4n î ∑ Xi2 − nX 2 ó = 4n ∑(Xi −X)2 > 0, do đó theo định lý 1 thì β̂0 , β̂1 được xác định như (5) là điểm cực tiểu của hàm bình phương L . Từ nghiệm β̂0 và β̂1 ở (5), ta viết gọn lại bằng cách gọi 1 1 1 xi , y = ∑ yi , xy = ∑ xi yi , ∑ n n n 2 2 2 2 sx = ∑(xi − x) = ∑ xi − n(x) , x= thì hai hệ số β̂0 và β̂1 được tính bởi công thức sau   β̂1 = n(xy − x · y) s2x  β̂ = y − β̂ x 0 3. Bàn luận 1 Lợi ích lớn nhất của hồi quy bằng phương pháp bình phương nhỏ nhất là nó có thể mở rộng được thành nhiều mô hình khác như hồi quy tuyến tính bội, hồi quy phi tuyến với đa dạng các loại mô hình khác nhau. Ngoài ra hồi quy còn có thể mở rộng thành nhiều chiều. Trong không gian hai chiều, một hàm số được gọi là tuyến tính nếu đồ thị của nó có dạng một đường thẳng. Trong không gian ba chiều, một hàm số được gọi là tuyến tính nếu đồ thị của nó có dạng một mặt phẳng. Các không gian con nhỏ hơn một chiều so với không gian đang xét được gọi là một siêu phẳng (hyperplane). Về mặt hạn chế, hạn chế đầu tiên của hồi quy tuyến tính là nó rất nhạy cảm với các dữ liệu ngoại lai. Vì vậy, trước khi thực hiện hồi quy tuyến tính, các giá trị ngoại lai trên cần phải được loại bỏ. Bước này được gọi là tiền xử lý. Hạn chế thứ hai của hồi quy tuyến tính là nó không biểu diễn được các mô hình phức tạp. Mặc dù trong phần trên, chúng ta thấy rằng phương pháp này có thể được áp dụng nếu quan hệ giữa X và Y không nhất thiết phải là tuyến tính, nhưng mối quan hệ này vẫn đơn giản nhiều so với các mô hình thực tế. Hơn nữa, chúng ta sẽ tự hỏi: làm thế nào để xác định được các hàm như ở trên ngoài việc phán đoán chủ quan?! ([8], p.106-7) 5 4. Tóm lại Bài viết đã tóm tắt phương pháp bình phương nhỏ nhất dưới góc nhìn cực trị hàm hai biến trong giải tích để ước lượng các hệ số chặn β0 và hệ số gốc β1 . Báo cáo đã đưa ra công thức để ước lượng hệ số như sau  n ∑ xi yi − ∑ xi · ∑ yi   β̂1 = n ∑ xi2 − (∑ xi )2 Ä ä   β̂0 = 1 ∑ yi − β̂1 ∑ xi n Đây là bài viết với mục đích làm nền tảng để tìm hiểu mối quan hệ giữa công thức tính các hệ số trong mô hình hồi quy với công thức tìm nghiệm bình phương nhỏ nhất trong Đại số tuyến tính. Tài liệu [1] Đinh Văn Gáng, Lý thuyết xác suất thống kê, Nhà xuất bản Giáo dục, năm 2009; [2] Gilbert Strang, Introduction to linear algebra (fifth edition), Wellesley - Cambridge Press, 2016 [3] Lâm Hoàng Chương cùng cộng sự, Xác suất thống kê – Toán thống kê, Nhà xuất bản Đại học Cần Thơ, năm 2019; [4] Nguyễn Hữu Khánh, Hồ Hữu Lộc, Đại số tuyến tính và hình học (tập II), Nhà xuất bản Đại học Cần Thơ, năm 2013; [5] Nguyễn Hữu Khánh, Giáo trình Giải tích II, năm 2018; [6] Trần Phước Đường cùng cộng sự, Giáo trình Đại số tuyến tính và Hình học (in lần thứ 7), Nhà xuất bản Đà Nẵng, năm 2017; [7] Steven J. Miller, The method of Least Square, https://web.williams. edu/Mathematics/sjmiller/public_html/BrownClasses/54/ handouts/MethodLeastSquares.pdf, ntc: 22/01/2020; [8] Vũ Hữu Tiệp, Machine Learning cơ bản, e-book https://github.com/ tiepvupsu/ebookMLCB, ntc 22/01/2020; [9] Yadolah Dodge, (Tô Cẩm Tú dịch), Từ điển các thuật ngữ thống kê Oxford, ISBN 976-604-961-921-2, Nhà xuất bản Đại học Quốc gia Hà Nội, năm 2018 6