« Home « Kết quả tìm kiếm

Phân tích hồi quy xu thế và một áp dụng thú vị


Tóm tắt Xem thử

- PHÂN TÍCH HỒI QUY XU THẾ VÀ MỘT ÁP DỤNG THÚ VỊ.
- Bài viết giới thiệu một phương pháp phân tích thống kê được áp dụng phù hợp cho các dữ liệu có tính tuần hoàn, “mùa vụ”.
- Dữ liệu sẽ được mô hình hoá theo dạng mô hình hồi quy xu thế, được thiết lập dựa trên biến thời gian và các biến “giả mùa”.
- Phương pháp được áp dụng minh họa rất thú vị trên bộ dữ liệu kinh doanh của căn tin Văn phòng Đoàn Trường Đại học Cần Thơ.
- Chúng tôi cũng thử áp dụng bộ dữ liệu này với mô hình ARIMA, một mô hình rất hay dùng trong phân tích chuỗi thời gian..
- Phân tích hồi quy xu thế và một áp dụng thú vị.
- Ứng dụng phân tích hồi quy được giới thiệu lần đầu tiên từ năm 1877 bởi Sir Francis Galton (Aczet and Sounderpandian, 2009.
- Một trong những mục tiêu quan trọng của phân tích hồi quy là đưa ra khả năng dự báo cho biến phụ thuộc dựa trên dữ liệu thu thập của một số biến độc lập khác..
- Trong trường hợp dữ liệu được thu thập theo một biến đổi thời gian (có biến độc lập là biến thời gian) thì mô hình hồi quy được thiết lập là một mô hình hồi quy xu thế.
- Theo từng khoảng thời gian cục bộ, mô hình có thể có xu thế tăng hay giảm thuần tuý, hoặc hỗn hợp biến thiên ngẫu nhiên hay biến thiên tuần hoàn với tính chu kỳ, “mùa vụ”..
- Trong trường hợp này, việc vận dụng chặt chẽ lý thuyết hồi quy cùng với việc mô hình hóa phù hợp cho bộ dữ liệu (với sự hỗ trợ của các biến “giả.
- Xem xét những nền tảng chặt chẽ của lý thuyết hồi quy để xây dựng một mô hình như vậy, thường được gọi là “Mô hình phân tích hồi quy xu thế”, là phần nội dung thứ nhất được trình bày trong bài báo này..
- Một mảng rất gần với mô hình phân tích hồi quy xu thế là các dạng ứng dụng mô hình hoá trong lý thuyết phân tích chuỗi thời gian (Groebner et al., 2011.
- Trần Hùng Thao, 2013), như mô hình trung bình trượt MA (Moving Average), mô hình tự hồi quy AR (AutoRegressive) hay các dạng kết hợp như ARMA (AutoRegressive Moving Average), ARIMA (AutoRegressive Integrated Moving Average).
- Trong mỗi tình huống ứng dụng cụ thể, vấn đề đặt ra là vận dụng một mô hình phân tích chuỗi thời gian hay mô hình phân tích hồi quy xu.
- thế là phù hợp? Xem xét cho vấn đề này, phần nội dung thứ hai của bài báo sẽ đưa ra các áp dụng thử nghiệm trên một bộ dữ liệu cụ thể.
- Chúng tôi sẽ vận dụng thử nghiệm và quan sát kết quả dự báo trên cùng một bộ dữ liệu cho mô hình phân tích hồi quy xu thế và mô hình ARIMA, một mô hình khá phổ biến trong phân tích chuỗi thời gian..
- Bộ dữ liệu sử dụng là các dữ liệu kinh doanh của căn tin Văn phòng Đoàn Trường Đại học Cần Thơ, được lấy từ ngày đến rơi vào 3 học kỳ (học kỳ 2, học kỳ hè năm học 2014-2015 và học kỳ 1 năm học 2015-2016).
- Bộ dữ liệu này phụ hợp với điều kiện nghiên cứu của chúng tôi và cũng đáp ứng được mục đích phân tích của bài báo.
- Đây là bộ dữ liệu có tính “mùa vụ”, các dữ liệu thay đổi có tính chu kỳ theo thời gian, phụ thuộc vào lịch học của các ngày trong tuần và của các học kì trong năm.
- Các xử lý dữ liệu thống kê được chúng tôi thực hiện trên phần mềm R..
- Việc giới thiệu chi tiết về dữ liệu cũng như về các vấn đề nội dung đã nêu sẽ được lần lượt trình bày trong ba mục còn lại của bài báo.
- Trong mục thứ 2 chúng tôi sẽ trình bày các nền tảng lý thuyết liên quan đến phương pháp phân tích hồi quy xu thế và mô hình ARIMA.
- Việc áp dụng hai mô hình này trên dữ liệu thực trên sẽ được giới thiệu ở mục 3.
- Cuối cùng, trong phần kết luận ở mục 4 chúng tôi đưa ra nhận xét về sự vận dụng phù hợp của hai dạng mô hình này, đồng thời nêu một số kết quả phân tích thống kê liên quan đến bộ dữ liệu..
- 2.1 Xây dựng phương trình hồi quy xu thế Phương pháp hồi quy xu thế được đề cập là phân tích hàm hồi quy giữa biến phụ thuộc x và biến thời gian t, x = f(t).
- Để nghiên cứu xu thế biến đổi tuyến tính ta thành lập phương trình hồi quy.
- trong đó a và b là các hệ số hồi quy được xác định bởi:.
- Chúng ta có thể nhận biết được xu thế biến đổi của dữ liệu x thông qua phân tích hệ số góc a.
- 0), còn trị tuyệt đối của a cho biết mức độ tăng giảm của dữ liệu theo biến đổi của thời gian t..
- Chúng ta có thể khảo sát dữ liệu trong các khoảng thời gian khác nhau để phân tích xu thế..
- Khi đó căn cứ vào các hệ số góc a chúng ta có thể phân tích xu thế của dữ liệu qua các thời kỳ khác nhau..
- 2.2 Mô hình hồi quy với biến giả.
- 2.3 Chuỗi thời gian.
- Phân tích chuỗi thời gian là dự báo giá trị của biến cần dự báo vào thời điểm hiện tại dựa trên cơ sở các giá trị của nó trong quá khứ cộng với một phần sai số, phần sai số này biến động ngẫu nhiên..
- Chuỗi dữ liệu phân tích phải có tính dừng, nếu không dừng ta tiến hành lấy sai phân đến khi chuỗi dừng..
- 2.3.1 Mô hình trung bình trượt tự hồi quy ARIMA(p,d,q).
- Phương trình khái quát của mô hình ARIMA(p,d,q) có dạng như sau (Anderson et al., 2011.
- là các tham số tự hồi quy;.
- Chúng tôi sử dụng phương pháp Box-Jenkin kết hợp với phần mềm R để xác định mô hình ARIMA cho lượng ăn vặt và giải khát bán được trong một ngày..
- Mục tiêu là tìm trong số tất cả các dạng của mô hình ARIMA một mô hình thích hợp nhất với bộ số liệu của hiện tượng đang nghiên cứu..
- Bước 1: Nhận dạng mô hình..
- Xác định p, q của mô hình ARIMA nhờ vào đồ thị tự tương quan ACF và tương quan riêng PACF..
- Bước 2: Ước lượng các hệ số của mô hình..
- Các hệ số của mô hình được xác định theo phương pháp bình phương tối tiểu (OLS_Ordnary Least Square) sao cho:.
- Bước 3: Kiểm định mô hình..
- Các hệ số của mô hình phải khác 0 (kiểm định t).
- Nếu có một hoặc nhiều hệ số không thỏa mãn ta sẽ loại bỏ ra mô hình AR hay MA đang xét..
- Phần dư của mô hình là sai số giữa kết quả dự báo và số liệu thực tế.
- Bước 4: Dự báo..
- Khi mô hình đã được kiểm định ta có thể dự báo cho tương lai..
- 3 ỨNG DỤNG PHƯƠNG PHÁP TRÊN DỮ LIỆU THỰC.
- Do mục đích của nhóm chúng tôi là tập trung phân tích về tác động của các yếu tố thời gian vào nhiệt độ và xu hướng bán ra của hai biến Giai Khat và An Vat.
- 3.1 Giới thiệu bộ số liệu Bộ dữ liệu bao gồm 37 biến:.
- Nhóm các biến thời gian: Ngay (t .
- Trong bài này chúng tôi phân tích thống kê sự phụ thuộc giữa các biến An Vat, Giai Khat, Nhiet Do, Tongdoanhthu, lượng bán được chung của An Vat và Giai Khat (AV&GK) và các biến thời gian..
- Dữ liệu khảo sát cho thấy rằng, tại thành phố Cần Thơ trong thời gian này có trung bình là 33.678 0 C.
- có xu hướng giảm và dần mát dịu trong khoảng thời gian về sau.
- Hình 1: Biểu đồ nhiệt độ ở Cần Thơ 3.2.2 Thống kê mô tả cho dữ liệu chuỗi thời gian + So sánh đối chiếu sự khác nhau giữa giải khát và ăn vặt hàng ngày khi không quan tâm đến thời gian qua một số tham số đặc trưng được liệt kê trong Bảng 1:.
- An Vat .
- Khi xem xét dữ liệu theo các ngày trong tuần, nhìn chung ta thấy rằng lượng bán ra của Giai Khat và An Vat khá cao ở giữa tuần, giảm mạnh vào cuối tuần do có quá ít lớp học.
- Điều này cần được phân tích thống kê cụ thể hơn để giúp cho người.
- Hình 2: Biểu đồ chuỗi thời gian của biến Giai Khat và An Vat.
- Nếu người quản lý không phân tích xu thế trong.
- Hình 3: Biểu đồ tán xạ và hệ số tương quan của các biến Giai Khat, An Vat và t Dùng phần mềm R, phương trình hồi quy tuyến.
- Cả hai mô hình trên đều có p-value <.
- 0.05 nhưng có hệ số xác định không cao nên chỉ có ý nghĩa tương đối về mặt thống kê, chưa có độ tin cậy để sử dụng dự báo từ hai mô hình này.
- Phương trình hồi quy cho thấy số lượng giải khát bán ra có xu hướng giảm, ngược lại số lượng ăn vặt bán ra lại có xu hướng tăng.
- Từ các kết quả thu được ở này giúp ta nhận ra rằng lượng giải khát bán ra giảm nhưng bù vào đó là mức tiêu thụ của món ăn vặt lại tăng và ảnh hưởng cuối cùng trong toàn bộ việc buôn bán theo thời gian là không đáng kể..
- Chúng ta thử tìm lý do của sự biến động trái chiều của hai biến thống kê này qua một nhân tố có thể có ảnh hưởng, đó là sự biến đổi thời tiết, khí khậu trong thời gian khảo sát, được xem xét cụ thể qua biến Nhiet do..
- Biểu đồ phân tích sự tương quan giữa các biến An Vat, Giai Khat và Nhiet do nhận được ở Hình 4..
- thể khẳng định sự phù hợp giữa thực tế quan sát và phân tích thống kê xu hướng: khi nhiệt độ có xu hướng giảm (xem ở mục 3.2.1) thì số lượng giải khát bán ra cũng giảm, ngược lại số lượng bán được của mặt hàng ăn vặt thì tăng lên.
- Thông tin phân tích này rất có ý nghĩa đối với người quản lý..
- Hình 4: Biểu đồ tán xạ và hệ số tương quan của các biến Giai Khat, An Vat và Nhietdo 3.3 Phân tích hồi quy đa biến với biến giả.
- Bước tiếp theo có thể có trong dự báo doanh số bán hàng là việc sử dụng hồi quy đa biến với việc tiên đoán bao gồm thời gian, các ngày trong tuần, và có thể là nhiệt độ.
- Phương trình hồi quy đa biến để dự báo doanh thu dựa vào biến t và các biến Thu:.
- 0.05 nên mô hình có ý nghĩa về mặt thống kê..
- Bảng 4: Tóm tắt kết quả dự báo bằng phân tích hồi quy với biến giả t Thứ Doanh thu (đồng) dự báo từ mô.
- hình hồi quy với biến giả Doanh thu (đồng) dự báo từ mô hình ARIMA.
- Trong phương trình này, hệ số của biến thời gian t là 616.8, nó cho biết một xu hướng tăng.
- Thực hiện báo doanh thu cho những ngày kế tiếp từ mô hình này, ví dụ khi t = 243 (Thứ năm) thì Tongdoanhthu .
- 3.4 Phân tích chuỗi thời gian.
- Tìm mô hình phù hợp để dự báo và kết quả chọn được là ARIMA(1,1,1) có chỉ số AIC.
- nhỏ nhất nên chúng tôi chọn mô hình này.
- Hình 6: Đồ thị dự báo cho doanh thu theo mô hình chuỗi thời gian Nhìn vào đồ thị dự báo (cung đường vẽ đứt.
- Hai mô hình thống kê đã được sử dụng trong bài viết.
- Kết quả chứng tỏ mô hình ARIMA theo.
- chuỗi thời gian được áp dụng không hợp lý lắm trong trường hợp này.
- Mô hình hồi quy với biến giả thể hiện là mô hình phù hợp hơn.
- Qua đó ta có thể đưa ra kết luận rằng để sử dụng khảo sát cho dạng “dữ liệu căn tin” (“café data.
- theo cách gọi của DePaolo et al trong môi trường hoạt động như trường học nói riêng hay cho những trường hợp khác mà dữ liệu phụ thuộc theo lịch học, lịch làm việc theo tuần hay theo mùa… thì ta nên ưu tiên xem xét sử dụng mô hình hồ quy với.
- Đây là dạng mô hình có thể giải thích và dự báo hợp lý cho những biến thiên có tính chu kỳ của dạng dữ liệu đặc thù này..
- Đối với bộ dữ liệu được khảo sát trong bài, các kết quả phân tích có thể giúp cho người quản lý căn tin vạch ra chiến lược kinh doanh tốt hơn qua việc bố trí số lượng nhân viên mỗi ngày một cách hợp lý cũng như việc tăng, giảm số lượng mặt hàng sao cho phù hợp để đạt được mức doanh thu và lợi nhuận cao nhất có thể.
- Qua phân tích hiện trạng cho thấy tình hình buôn bán của căn tin không ổn định, có sự chênh lệch giữa các học kỳ, đáng chú ý hơn là có sự khác biệt lớn về doanh thu của các ngày trong tuần qua đó ta thấy được sự phụ thuộc của doanh thu vào lịch học sinh viên là rất lớn..
- Ở khía cạnh khác, ta thấy lượng bán của các mặt hàng ăn vặt có xu hướng tăng theo thời gian trong khi đó thì phía giải khát lại có xu hướng giảm.
- Tuy nhiên, điều thú vị ở đây là khi gộp hai mặt hàng này lại thì xu hướng lại không có ý nghĩa về mặt thống kê và yếu tố thời gian không làm ảnh hưởng đến toàn bộ việc buôn bán.
- Phân tích thống kê trong mô hình xu thế được áp dụng ở đây đã tìm ra được một giải thích hợp lý..
- Khảo sát cho thấy nhiệt độ có xu hướng giảm dịu trong thời gian thu thập dữ liệu.
- Rõ ràng sự áp dụng phân tích thống kê một cách hợp lý trong trường hợp này đã cung cấp cho chúng ta những xem xét, giải thích rất khoa học, rất thú vị và rất có ích trong quản lý..
- Các tác giả trân trọng cảm ơn căn tin Văn phòng Đoàn Trường Đại học Cần Thơ đã cho phép chúng tôi khai thác và sử dụng dữ liệu của căn tin..
- Nhờ có những dữ liệu này, chúng tôi mới có thể thực hiện được các áp dụng phù hợp với mục tiêu của bài báo và phù hợp với điều kiện nghiên cứu của mình.