« Home « Kết quả tìm kiếm

SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ


Tóm tắt Xem thử

- SO SÁNH CÁC MÔ HÌNH DỰ BÁO LƯỢNG MƯA CHO THÀNH PHỐ CẦN THƠ Đỗ Thanh Nghị 1 , Phạm Nguyên Khang 1 , Nguyễn Nhị Gia Vinh 2 và Văn Phạm Đăng Trí 3.
- Dự báo lượng mưa, hồi qui tuyến tính, k láng giềng, cây quyết định, bagging, rừng ngẫu nhiên, máy học véc-tơ hỗ trợ.
- Do sự thay đổi nhiệt độ và lượng mưa ảnh hưởng trực tiếp đến các hoạt động nông nghiệp và nuôi trồng thủy sản - những yếu tố chính dẫn đến sự phát triển của vùng đồng bằng Sông Cửu Long, câu hỏi được đặt ra là liệu những thay đổi về nhiệt độ và lượng mưa có thể được dự báo với độ không chắc chắn ở mức có thể chấp nhận được hay không.
- Bài báo này trình bày các giải thuật và mô hình dự báo lượng mưa từ nguồn dữ liệu khí hậu của SEA-START.
- Các mô hình dự báo này được so sánh với nhau bằng phương pháp phân tích lỗi dự báo.
- Các kết quả trong bài báo này cho thấy mô hình hồi qui tuyến tính có lỗi dự báo cao nhất trong khi các mô hình dự báo phi tuyến cho kết quả dự báo tốt hơn.
- Tính đa dạng của những mô hình dự báo này có thể được ứng dụng để giải các bài toán môi trường trong thực tiễn..
- Bài báo này đề xuất một phương pháp downscaling hai bước để dự báo lượng mưa hằng ngày.
- Bước đầu tiên thực hiện việc dự báo một ngày nào đó có mưa hay không.
- Bước thứ hai sẽ dự báo lượng mưa nếu như ngày đó được dự báo là có mưa ở bước một..
- phần 2 trình bày ngắn gọn về các nghiên cứu liên quan đến mô hình dự báo lượng mưa, phần 3 trình bày các mô hình dự báo lượng mưa.
- Các chuyên gia đã sử dụng mô hình tuần hoàn tổng quát (GCM - General Circulation Model) để thiết kế mô hình và mô phỏng các tiến trình biến đổi khí hậu trong phạm vi toàn cầu (Ghosh et al., 2008).
- Mô hình GCM sử dụng các biến thời tiết có.
- độ phân giải thấp để dự báo các biến đổi khí hậu dài hạn và trung hạn cho các vùng với phạm vi rộng lớn, do đó làm cho các chuyên gia khó khăn trong việc dự báo ảnh hưởng của biến đổi khí hậu đối với nguồn tài nguyên nước tại các vùng có phạm vi nhỏ.
- Việc biến đổi kết quả đầu ra của mô hình GCM để dự báo biến đổi khí hậu tại các vùng có phạm vi nhỏ hơn (như: cấp xã, ấp, cánh đồng) là một bài toán khó vì mô hình GCM không đề cập đến các tiến trình cơ bản xảy ra ở các vùng có phạm vi nhỏ (ví dụ: tiến trình bốc hơi nước, hấp thụ nước, phân bố lượng mưa)..
- Các phương pháp downscaling đã được phát triển để tạo sự liên hệ giữa kết quả đầu ra của mô hình GCM có độ phân giải thấp với các biến thời tiết có độ phân giải cao hơn ở các vùng có phạm vi nhỏ.
- Phương pháp hồi quy thiết lập một hàm tuyến tính hoặc phi tuyến thực nghiệm giữa các biến thời tiết ở cấp độ vùng có phạm vi nhỏ (cấp độ địa phương-local scale) và các biến ở cấp độ toàn cục (global scale) của mô hình GCM.
- Nghiên cứu của (Chen et al., 2010) đề xuất kết hợp mô hình phân lớp (mưa hay không mưa) và mô hình hồi quy sử dụng máy học véc tơ hỗ trợ..
- Nhiều mô hình và phần mềm downscaling đã được hình thành và phát triển.
- Nhưng mô hình SDSM (Statistical downscaling model) của Wilby et al.
- (2006) đã kết hợp SDSM với một mô hình cân bằng nước và mô hình chất lượng nước cân bằng để nghiên cứu đánh giá ảnh hưởng của.
- Trong nghiên cứu dự báo lượng mưa, chúng tôi trước tiên sử dụng mô hình hồi quy tuyến tính..
- Tiếp đến, nghiên cứu tập trung vào hướng tiếp cận dựa trên các mô hình máy học tự động như: k láng giềng (k Nearest Neighbors) (Fix and Hodges, 1952), cây quyết định (Decision Trees) (Breiman et al., 1984), bagging (Breiman, 1996), rừng ngẫu nhiên (Random Forests) (Breiman, 2001) và máy học véc tơ hỗ trợ (Support Vector Machines) (Vapnik, 1995).
- Chúng tôi cũng đề xuất mô hình học phân cấp kết hợp giữa mô hình phân lớp và mô hình hồi quy dựa trên rừng ngẫu nhiên và máy học véc tơ hỗ trợ..
- 3 MÔ HÌNH DỰ BÁO.
- 3.1 Mô hình hồi quy tuyến tính (linear regression - LM).
- Mô hình hồi quy đơn giản nhất là hàm tuyến tính (bậc 1) dùng để mô tả mối quan hệ giữa biến phụ thuộc và biến độc lập là tuyến tính.
- Mô hình hồi quy tuyến tính có dạng:.
- với α là chặn (intercept), β là độ dốc (slope) Các tham số α, β của mô hình được ước lượng từ dữ liệu quan sát.
- Xét tập dữ liệu gồm m phần tử x 1 , x 2.
- Các tham số α, β của mô hình được ước lượng bằng phương pháp bình phương bé nhất (least squares):.
- Giá trị dự báo cho phần tử mới x dựa vào công thức (3):.
- Quinlan, 1993) là mô hình máy học tự động sử dụng rất nhiều trong khai mỏ dữ liệu (Wu and Kumar, 2009) do tính đơn giản và hiệu quả.
- Mô hình rất dễ hiểu bởi vì chúng ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THEN được tạo ra từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốc đến nút lá.
- Hình 3: Cây quyết định học từ dữ liệu cho phép dự báo chơi Golf Xét tập dữ liệu bao gồm m phần tử x 1 , x 2.
- Giải thuật học mô hình cây quyết định từ dữ liệu gồm 2 bước lớn: xây dựng cây, cắt nhánh để tránh học vẹt.
- Nếu các phần tử dữ liệu tại 1 nút là thuần khiết thì nút đang xét được cho là nút lá, giá trị dự báo của nút lá cho vấn đề phân lớp với bình chọn số đông trong các giá trị {y i.
- Mô hình cây quyết định sau khi xây dựng.
- Tức là mô hình có tính tổng quát thấp, chỉ cần dữ liệu kiểm tra có thay đổi một ít so với dữ liệu học thì cây quyết định dự báo sai.
- Tuy nhiên độ phức tạp của việc cắt nhánh sau khi xây dựng cây rất phức tạp, sử dụng các chiến lược để ước lượng lỗi sinh ra bởi mô hình sau khi cắt nhánh..
- 3.4 Mô hình Bagging (BagDT).
- Từ những năm 1990, cộng đồng máy học đã nghiên cứu cách để kết hợp nhiều mô hình phân loại yếu thành mô hình tập hợp phân loại mạnh cải thiện độ chính xác cao hơn so với chỉ một mô hình phân loại đơn yếu.
- Thành phần lỗi bias là khái niệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và thành phần lỗi variance là lỗi do tính biến thiên của mô hình so với tính ngẫu nhiên của các mẫu dữ liệu học.
- Mục đích của các mô hình tập hợp là làm giảm variance và/hoặc bias của các giải thuật học..
- Từ tập dữ liệu học LS có m phần tử, xây dựng T mô hình cơ sở độc lập nhau..
- Mô hình thứ t được xây dựng trên tập mẫu Bootstrap thứ t (lấy mẫu m phần tử có hoàn lại từ tập học LS)..
- Kết thúc quá trình xây dựng T mô hình cơ sở, dùng chiến lược bình chọn số đông để phân lớp một phần tử x mới đến hoặc giá trị trung bình cho bài toán hồi quy..
- Trong thực tế, giải thuật Bagging cải thiện rất tốt các mô hình đơn không ổn định như cây quyết định và thường có thành phần lỗi variance cao.
- Hình 4 là ví dụ của giải thuật Bagging được áp dụng cho mô hình cơ sở là cây quyết định..
- 3.5 Rừng ngẫu nhiên (Random Forests - RF) Tiếp cận rừng ngẫu nhiên do (Breiman, 2001) đưa ra là một trong những phương pháp tập hợp mô hình thành công nhất.
- Giải thuật rừng ngẫu nhiên sinh ra mô hình có độ chính xác.
- Mô hình cây quyết định thứ t được xây dựng trên tập mẫu Bootstrap thứ t (lấy mẫu m phần tử có hoàn lại từ tập học LS)..
- Kết thúc quá trình xây dựng T mô hình cơ sở, dùng chiến lược bình chọn số đông để phân lớp một phần tử mới đến hoặc giá trị trung bình cho bài toán hồi quy..
- Máy học véc tơ hỗ trợ (SVM) được đề xuất bởi (Vapnik, 1995) là mô hình hiệu quả và phổ biến cho vấn đề phân lớp, hồi quy những tập dữ liệu có số chiều lớn..
- Dự báo cho phần tử mới đến x dựa trên siêu phẳng (w, b) được tính theo công thức (14):.
- exp(-||u – v Mô hình hồi quy phân cấp.
- Chúng ta có thể sử dụng trực tiếp các mô hình hồi quy vừa được trình bày để dự báo lượng mưa trong ngày.
- Mỗi mô hình đều có ưu điểm và khuyết điểm khác nhau.
- Chẳng hạn mô hình hồi quy tuyến tính thì rất đơn giản, thời gian xây dựng mô hình và dự báo nhanh, điều tất yếu là độ chính xác cũng không cao.
- Riêng mô hình kNN cũng đơn giản, chỉ sử dụng duy nhất tham số là k = 1, 2.
- là số láng giềng, tuy nhiên thời gian dự báo lâu hơn do phải tìm kiếm láng giềng của phần tử cần dự báo.
- Mô hình cây quyết định chỉ cần duy nhất tham số minobj = 1,2.
- là số phần tử tối thiểu tại mỗi nút lá, thời gian xây dựng mô hình và dự báo nhanh, đạt được độ chính xác tương đối cao so với kNN và hồi quy tuyến tính.
- Xây dựng mô hình SVM cần thiết ba tham số là hằng số c >.
- Thời gian xây dựng mô hình và dự báo rất cao (ít nhất là bậc 2 so với số lượng phần tử).
- Mặc dù phức tạp, nhưng Bagging, rừng ngẫu nhiên và SVM là mô hình phi tuyến, nên xử lý tốt cho các vấn đề phi tuyến, đặc biệt là dự báo lượng mưa đang xét ở đây..
- Hình 8 minh họa mô hình hồi quy phân cấp.
- Dữ liệu được phân lớp (ClassM) vào một trong năm lớp như: không mưa (lượng mưa = 0), mưa nhẹ (lượng mưa: 0-2,5 mm), mưa vừa (lượng mưa: 2,5- 7,6 mm), mưa to (lượng mưa: 7,6-50mm), rất to (lượng mưa trên 50 mm).
- Tương ứng với từng lớp, một mô hình hồi quy được xây dựng cho phép dự báo tốt các phần tử thuộc lớp đó (RegM-i)..
- Hơn nữa, quá trình xây dựng mô hình hồi quy càng phức tạp hơn khi cần dự báo lượng mưa từ tập dữ liệu, có mối quan hệ phi tuyến giữa biến phụ thuộc (lượng mưa) với nhiều biến độc lập (bức xạ mặt trời, hướng gió, tốc độ gió, nhiệt độ).
- Từ phân tích trên, chúng tôi đề xuất mô hình hồi quy phân cấp, kết hợp giữa mô hình phân lớp và nhiều mô hình hồi quy cục bộ để nâng cao hiệu quả xử lý của dự báo lượng mưa..
- Hình 8: Mô hình phân cấp (phân lớp + hồi quy).
- Để tiến hành đánh giá hiệu quả của các mô hình dự báo lượng mưa, chúng tôi tiến hành cài đặt tất cả các chương trình dự báo bằng ngôn ngữ R (Ihaka and Gentleman, 1996) có sử dụng các gói thư viện FNN, rpart, ipred, randomForest, e1071..
- Chương trình bao gồm các mô hình: Hồi quy tuyến tính (LM), k láng giềng (kNN), Cây quyết định (DT), Bagging (BagDT), Rừng ngẫu nhiên (RF), Máy học véc tơ hỗ trợ cho hồi quy SVR, Mô hình phân cấp: RF phân lớp và RF hồi quy (RFC-RFR), Mô hình phân cấp: SVC phân lớp và SVR hồi quy (SVC-SVR) để dự báo lượng mưa..
- Bảng 1: Kết quả dựa báo lượng mưa của các mô hình.
- mô hình phân cấp RFC-RFR .
- mô hình phân cấp SVC-SVR .
- Vấn đề chúng ta cần kiểm thử là xây dựng các mô hình dự báo sử dụng tập dữ liệu có.
- được để dự báo lượng mưa (rainfall) từ 5 thuộc tính còn lại.
- Chúng tôi sử dụng nghi thức kiểm thử hold-out bằng cách lấy ngẫu nhiên 2/3 tập dữ liệu (6240 dòng) làm tập huấn luyện các mô hình dự báo và 1/3 còn lại (3120 dòng) làm tập kiểm tra kết quả dự báo.
- Kết quả dự báo được đánh giá trên tiêu chí trung bình bình phương lỗi (Mean Square Error - MSE) và trung bình lỗi tuyệt đối (Mean Absolute Error - MAE).
- Chúng tôi chỉ sử dụng tập huấn luyện để điều chỉnh các tham số của các mô hình..
- Kết quả thu được từ các mô hình dự báo (với các tham số tối ưu) được trình bày trong Bảng 1.
- Ở hai cột MSE và MAE, kết quả dự báo với lỗi thấp nhất được in đậm, lỗi thấp thứ hai được in gạch dưới và lỗi thấp thức ba được in đậm và nghiêng..
- Hình 9: Kết quả dự báo 360 ngày của mô hình phân cấp.
- Không có gì ngạc nhiên khi mô hình hồi quy tuyến tính cho lỗi dự báo cao nhất.
- Trong khi các mô hình dự báo phi tuyến chứng tỏ nhiều ưu thế hơn.
- Mặc dù vậy, mô hình máy học véc tơ hỗ trợ.
- Trong khi đó, mô hình cây quyết định đơn giản cũng cho kết quả rất khả quan khi so sánh với tất cả các mô hình còn lại.
- Tuy nhiên, hiệu quả nhất vẫn là phương pháp tập hợp mô hình như Bagging, rừng ngẫu nhiên và mô hình phân cấp.
- với trung bình bình phương lỗi nhỏ nhất trong khi mô hình phân cấp RFC-RFR có thể dự báo với trung bình lỗi tuyệt đối là nhỏ nhất..
- Đồ thị về kết quả dự báo lượng mưa của 360 ngày của mô hình phân cấp RFC-RFR được trình bày trong Hình 9.
- Quan sát đồ thị này, chúng ta có thể thấy rằng mô hình phân cấp RFC-RFR dự báo hiệu quả lượng mưa..
- Nghiên cứu này đã so sánh các mô hình dự báo theo phương pháp phân tích lỗi dự báo.
- Phương pháp downscaling hai bước được đề xuất trong bài báo này nhằm dự báo lượng mưa hằng ngày và cho thấy khả năng ứng dụng của các mô hình dự báo lượng mưa trong thực tế.
- Nghiên cứu ngày đã áp dụng các phương pháp Hồi quy tuyến tính, k láng giềng, Cây quyết định, Bagging, Rừng ngẫu nhiên (RF), Máy học véc tơ hỗ trợ cho hồi quy SVR, Mô hình phân cấp: RF phân lớp và RF hồi quy (RFC- RFR), Mô hình phân cấp: SVC phân lớp và SVR hồi quy (SVC-SVR) để dự báo lượng mưa từ tập dữ liệu của SEA-START ở lưới gần Thành phố Cần Thơ.
- Kết quả thực nghiệm cho thấy rằng mô hình hồi quy tuyến tính không phù hợp cho dự báo lượng mưa trong khi các mô hình dự báo khác như Bagging, rừng ngẫu nhiên và mô hình phân cấp RFC-RFR dự báo chính xác hơn..
- Trong tương lai, chúng tôi sẽ áp dụng các mô hình dự báo này vào dữ liệu thực tế của Thành phố Cần Thơ ngay khi thu thập và tiền xử lý dữ liệu..
- Chúng tôi có thể nghiên cứu áp dụng cho các vấn đề dự báo tương tự như dự báo mực nước, dự báo lưu lượng cuộc gọi điện thoại.
- do các mô hình trong bài là tổng quát cho các vấn đề về dự báo.