« Home « Kết quả tìm kiếm

MÔ HÌNH MỜ TSK DỰ ĐOÁN GIÁ CỔ PHIẾU DỰA TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ HỒI QUY


Tóm tắt Xem thử

- MÔ HÌNH MỜ TSK DỰ ĐOÁN GIÁ CỔ PHIẾU DỰA TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ HỒI QUY Nguyễn Đức Hiển 1 và Lê Mạnh Thạnh 2.
- Mô hình mờ, mô hình mờ TSK, máy học véc-tơ hỗ trợ, máy học véc-tơ hỗ trợ hồi qui, dự đoán giá cổ phiếu Keywords:.
- Bài báo này đề xuất một mô hình mờ TSK cho bài toán dự đoán giá cổ phiếu dựa trên mô hình máy học véc-tơ hỗ trợ hồi qui.
- Trên cở sở thỏa mãn các điều kiện nhằm đồng nhất giữa hàm đầu ra của mô hình mờ TSK và hàm quyết định của máy học véc-tơ hỗ trợ hồi qui, chúng ta có thể xây dựng một thuật toán cho phép trích xuất mô hình mờ TSK từ máy học véc- tơ hỗ trợ.
- Bên cạnh đó trong nghiên cứu này chúng tôi còn đề xuất một giải pháp cho phép tối ưu hóa mô hình mờ TSK trích xuất được thông qua việc điều chỉnh tham số ε.
- Mô hình đề xuất là sự kết hợp của thuật toán phân cụm SOM và thuật toán trích xuất mô hình mờ TSK từ máy học Véc- tơ hỗ trợ hồi quy.
- Hiệu quả của giải pháp đề xuất được đánh giá thông qua các kết quả thực nghiệm và có sự so sánh với kết quả của một số mô hình khác..
- Bài toán dự đoán giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của các nhà khoa học.
- Có nhiều mô hình và giải pháp khác nhau đã được các nhà nghiên cứu đề xuất, với mục tiêu cuối cùng là nâng cao tính chính xác của kết quả dự đoán.
- Bài toán dự đoán giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự.
- Một trong những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự đoán giá cổ phiếu là trích xuất mô hình mờ dự đoán giá cổ phiếu từ dữ liệu giao dịch lịch sử, gọi là mô hình mờ hướng dữ liệu (data-driven model).
- Một trong những kỹ thuật trích xuất luật mờ tự động từ dữ liệu khá hiệu quả.
- Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [4][9], dự báo hồi quy [12][14]..
- Một đặc điểm đáng lưu ý của máy học véc-tơ hỗ trợ là đối với một tập dữ liệu học nhất định, nếu điều chỉnh các tham số để tăng tính chính xác của mô hình dự đoán thì số lượng véc-tơ hỗ trợ (Support Vector - SVs) cũng tăng lên [4][5][12].
- Nói cách khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” (intepretability) của mô hình.
- Trong bài báo này, chúng tôi đề xuất giải pháp điều chỉnh giá trị tham số ε trong mô hình máy học SVM hồi qui (ε-Support Vector Regression) để sao cho có thể đảm bảo tính chính xác của mô hình dự báo đồng thời tăng “tính có thể diễn dịch được” của mô hình mờ trích xuất được..
- Các phần tiếp theo của bài báo bao gồm: phần 2 trình bày sơ lược về mô hình mờ TSK, máy học véc-tơ tựa (SVM – Support Vector Machine) và điểm tương đồng của hai mô hình này.
- qua đó đề xuất thuật toán fm-SVM cho phép trích xuất các luật mờ từ SVMs trong đó có tích hợp các giải pháp tối ưu hóa mô hình thông qua các tham số..
- Trong phần 3, chúng tôi đề xuất một mô hình mờ TSK dự đoán giá cổ phiếu dựa trên sự kết hợp giữa thuật toán phân cụm SOM (Self-Organizing Map) và thuật toán trích xuất mô hình mờ fm-SVM..
- Phần 4 trình bày những kết quả thực nghiệm của mô hình đề xuất, trong đó có kết hợp so sánh với một số kết quả của các mô hình khác.
- 2 TRÍCH XUẤT MÔ HÌNH MỜ TSK TỪ MÁY HỌC VÉC-TƠ HỖ TRỢ HỒI QUY.
- 2.1 Mô hình mờ TSK.
- Mô hình mờ dạng TSK còn được gọi là mô hình Takagi-Sugeno, được đề xuất bởi Takagi, Sugeno, và Kang nhằm phát triển cách tiếp cận mang tính hệ thống đối với quá trình sinh luật mờ từ tập dữ liệu vào-ra cho trước.
- Mô hình mờ TSK được cấu thành từ một tập các luật mờ “IF.
- hàm (không mờ) ánh xạ từ các tham số đầu vào tới tham số đầu ra của mô hình..
- Giả sử có một hệ thống mờ TSK với m luật mờ được biểu diễn như sau:.
- Máy học véc-tơ hỗ trợ SVM được Vapnik giới thiệu năm 1995, đây là mô hình học dựa trên lý thuyết học thống kê (Statistical Learning Theory) [1][3] và là một kỹ thuật được đề nghị để giải quyết cho các bài toán phân lớp.
- Cho một tập dữ liệu huấn luyện x , y.
- trong đó xác định miền dữ liệu đầu vào.
- 2.3 Trích xuất mô hình mờ TSK.
- Xét hàm đầu ra của mô hình mờ TSK (3) và hàm quyết định của mô hình máy học Véc-tơ hồi quy (8).
- Khi hàm Gauss được chọn làm hàm thành viên và hàm nhân, đồng thời số luật mờ bằng với số véc-tơ hỗ trợ (m = l) thì (3) và (8) trở thành:.
- σ 11 Và chúng ta chọn: z α α ∗ 12 Như vậy, trên cơ sở thỏa mãn các điều kiện để đồng nhất hàm đầu ra của SVMs và hệ thống mờ TSK, chúng ta có thể trích xuất được mô hình mờ TSK từ máy học Véc-tơ hỗ trợ..
- 2.5 Tối ưu hóa mô hình bằng tham số ε Một trong những đặc điểm của mô hình mờ là.
- Tuy nhiên, đối với mô hình máy học véc-tơ hỗ trợ nếu tăng tính chính xác của mô hình thì số lượng SVs cũng tăng lên, đồng nghĩa với số lượng luật mờ cũng tăng lên..
- Xét kết quả thực nghiệm mô hình máy học véc- tơ hồi quy trên hàm hồi qui phi tuyến Sinc(x) được cho bởi công thức sau:.
- 1 0 15 Tập dữ liệu huấn luyện được xác định trong phạm vi từ -3π đến +3π..
- Theo kết quả thể hiện ở Hình 1 chúng ta thấy: khi giá trị của tham số ε giảm đi thì số lượng SVs cũng tăng lên, đồng thời độ chính xác của kết quả dự đoán cũng tăng lên (đường đậm nét là đường dự đoán hồi quy, đường đánh dấu + là đường biểu diễn giá trị dữ liệu đúng)..
- Khi giá trị ε 0.0, sẽ có 50 SVs nhận được từ mô hình, đồng nghĩa với việc chúng ta nhận được 50 luật mờ (chú ý rằng, trong trường hợp này tất cả các mẫu dữ liệu huấn luyện được chọn làm SVs đầu ra).
- Khi tăng giá trị tham số ε 0.1, thì có 6 SVs nhận được tương ứng với 6 luật mờ.
- Từ những phân tích trên, chúng tôi đã đề xuất thuật toán fm-SVM cho phép trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ như thể hiện ở Hình 3..
- Hình 3: Sơ đồ khối thuật toán fm-SVM Trong thuật toán này, ngoài việc tối ưu hóa các tham số của hàm thành viên, chúng ta có thể điều chỉnh giá trị tham số ε để nhận được tập luật mờ tối ưu..
- 3 MÔ HÌNH MỜ TSK DỰ ĐOÁN GIÁ CỔ PHIẾU.
- Trong phần này, chúng tôi đề xuất một mô hình trích xuất luật mờ dự đoán giá cổ phiếu bằng cách sử dụng thuật toán fm-SVM đã đề xuất.
- Sơ đồ khối của mô hình được thể hiện trong Hình 4..
- Hình 4: Mô hình mờ dự đoán giá cổ phiếu 3.1 Lựa chọn thuộc tính đầu vào.
- Theo những kết quả nghiên của các tác giả khác về việc dự đoán giá cổ phiếu có nhiều cách khác nhau để lựa chọn thuộc tính đầu vào, ví dụ như: sử dụng các chỉ số kinh tế vi mô, hoặc sử dụng các chỉ số giá cổ phiếu hàng ngày <opening, high, low, closing price>.
- Ở mô hình này.
- Trích xuất luật mờ từ SVMs.
- làm dữ liệu vào.
- Tuy nhiên, tập dữ liệu vào sẽ được tiền xử lý trước khi đưa vào huấn luyện cho mô hình..
- 3.2 Phân cụm dữ liệu đầu vào bằng SOM Gần đây, nhiều nghiên cứu của các tác giả khác đã đề xuất sử dụng SOM như là một giải pháp khá hiệu quả để phân cụm dữ liệu, đặc biệt là đối với dữ liệu thị trường chứng khoán [6][15].
- Trong nghiên cứu này, chúng tôi sử dụng SOM để phân dữ liệu đầu vào thành các cụm theo sự tương đương phân bố thống kê của các điểm dữ liệu.
- 1) Kích thước dữ liệu trong từng cụm sẽ nhỏ hơn làm tăng tốc độ học của mô hình..
- 2) Dữ liệu trong các cụm có sự tương đương trong phân bố thống kê, như vậy sẽ hạn chế được các trường hợp nhiễu..
- 3.3 Trích xuất mô hình mờ bằng fm-SVM Mỗi cụm dữ liệu vào đã được phân tách bằng SOM sẽ được đưa vào huấn luyện cho từng máy fm-SVM tương ứng để trích xuất các luật mờ.
- Các tập luật mờ trích xuất được từ các máy fm-SVM.
- tương ứng với các cụm dữ liệu huấn luyện có thể được sử dụng để suy luận dự đoán giá cổ phiếu..
- Những luật mờ khai phá được từ dữ liệu đã được phân thành các cụm riêng biệt và được cải thiện tính “có thể diễn dịch được”, như vậy các chuyên gia con người có thể diễn dịch thành luật ngôn ngữ và từ đó có thể hiểu và đánh giá được các luật này..
- Để đánh giá mô hình đề xuất, chúng tôi xây dựng một hệ thống thử nghiệm dựa trên bộ công cụ Matlab.
- Thuật toán học SVM của thư viện LIBSVM được phát triển bởi nhóm của Chih-Wei Hsu [2], được sử dụng để sản sinh ra các SVs từ dữ liệu huấn luyện, làm cơ sở để xây dựng thuật toán trích xuất các luật mờ fm-SVM.
- Việc phân cụm dữ liệu đầu vào được thực hiện dựa trên bộ công cụ SOM được phát triển bởi Juha Vesanto và các đồng sự [10].
- Sau cùng, chúng tôi sử dụng hàm AVALFIS trong thư viện công cụ Matlab Fuzzy Logic để suy luận dự báo giá cổ phiểu dựa vào các luật mờ sản xuất được..
- Bảng 2: Nguồn dữ liệu thực nghiệm.
- Tên cổ phiếu Thời gian Dữ liệu training Dữ liệu testing.
- Nguồn dữ liệu thực nghiệm được chọn ngẫu nhiên từ những mã cổ phiếu có lịch sử giao dịch tương đối dài bao gồm: TTC (Công ty cổ phần.
- Các dữ liệu trên được lấy từ nguồn dữ liệu lịch sử của 2 sàn chứng khoán Việt Nam, thông qua website http://www.cophieu68.vn/..
- Các tập dữ liệu training sẽ được dùng để trích xuất các tập luật mờ.
- Bảng 3 thể hiện một nhóm luật mờ trích xuất được từ dữ liệu training của mã cổ phiếu TTC..
- Bảng 3: Một nhóm luật mờ trích xuất được ứng với mã cổ phiểu TTC.
- x5=Gaussmf THEN y=-0.02 Bằng cách sử dụng hàm AVALFIS trong thư viện công cụ Matlab Fuzzy Logic, chúng tôi đã thử nghiệm suy luận dựa trên các tập luật sản xuất được đối với các tập dữ liệu testing.
- chúng tôi cũng thử nghiệm dự đoán trên cùng bộ dữ liệu đó với các mô hình được đề xuất bởi các tác giả khác, bao gồm SVM, mô hình kết hợp SOM+SVM và SOM+f-SVM.
- Mô hình SOM+SVM là mô hình dựa trên sự kết hợp của SOM và SVM, được đề xuất để dự đoán xu hướng cổ phiếu trong [6][15].
- Mô hình SOM+f-SVM là mô hình kết hợp SOM với f-SVM thuần túy (chưa điều chỉnh tham số ε).
- Hiệu quả của các mô hình được so sánh và đánh giá dựa trên ba thông số, gồm NMSE (Nomalized Mean Squared Error), MAE (Mean Absolute Error), và DS (Directional Symmetry).
- Trong đó NMSE và MAE đo lường độ lệch giữa giá trị thực tế và giá trị dự đoán, DS đo lường tỷ lệ dự đoán đúng xu hướng của giá trị RDP+5.
- Giá trị tương ứng của NMSE và MAE là nhỏ và của DS là lớn chứng tỏ rằng mô hình dự đoán tốt..
- Kết quả thực nghiệm dự đoán trên 200 mẫu dữ liệu testing được thể hiện trong Bảng 4..
- So sánh giá trị các thông số MNSE và MAE trong Bảng 4 ta thấy, trên cả 5 mã cổ phiếu, giá trị các thông số MNSE và MAE của mô hình SOM+fm-SVM đề xuất là nhỏ hơn so với mô hình SVM, điều này chứng tỏ độ sai lệch giữa giá trị dự đoán và giá trị thực tế của mô hình đề xuất là ít hơn so với hai mô hình kia.
- Bên cạnh đó, ta cũng thấy giá trị thông số DS của mô hình đề xuất lớn hơn so với mô hình SVM, điều này chứng tỏ tỷ lệ dự đoán đúng xu hướng của mô hình đề xuất cao hơn..
- Bảng 4: Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm Mã cổ.
- So sánh kết quả của mô hình SOM+fm-SVM đề xuất với mô hình SOM+SVM và SOM+f-SVM trong Bảng 4, ta thấy giá trị của những thông số của cả hai mô hình là tương đương.
- Điều này cũng dễ dàng lý giải được, bởi vì các thuật toán f-SVM và fm-SVM đã rút trích ra tập luật mờ dùng cho mô hình dự đoán từ các máy SVMs, và như vậy mô hình dự đoán đề xuất kết hợp SOM với f-SVM và fm-SVM sẽ thừa hưởng hiệu quả của mô hình SOM+SVM là điều tất yếu.
- Tuy nhiên, so với mô hình dự đoán SOM+SVM thì các mô hình mờ TSK.
- 1) Mô hình dự đoán SOM+SVM là một mô hình “hộp đen” đối với người dùng cuối, trong khi mô hình đề xuất cho phép trích xuất ra một tập luật mờ và quá trình suy luận sẽ được thực hiện trên tập luật này.
- Đối với người dùng cuối thì mô hình suy luận dựa trên một tập luật mờ sẽ dễ hiểu và sáng tỏ hơn..
- 2) Ngoài ra, việc áp dụng SOM để phân cụm dữ liệu đầu vào thành từng tập nhỏ riêng biệt, bên cạnh hiệu quả mang lại là giảm kích thước dữ liệu vào và từ đó làm giảm độ phức tạp của thuật toán,.
- riêng biệt tương ứng, điều này cũng sẽ góp phần giúp cho chuyên gia con người dễ dàng đọc hiểu và phân tích các luật mờ học được..
- Điểm cải thiện của mô hình dựa trên fm-SVM so với mô hình dựa trên f-SVM chính là số luật mờ trích xuất được trong từng mô hình dự đoán.
- Ví dụ, đối với mã cổ phiếu HATC, tổng số luật mờ theo mô hình SOM+f-SVM là 561, trong theo mô hình SOM+fm-SVM chỉ là 6*25.
- Như vậy, số luật mờ của mô hình đề xuất đã giảm đi rất nhiều so với mô hình SOM+f-SVM, trong khi tính chính xác của kết quả dự đoán vẫn được đảm bảo..
- Trong nghiên cứu này đề xuất một mô hình dự đoán giá cổ phiếu dựa trên sự kết hợp của SOM và fm-SVM.
- Kết quả thực nghiệm trên dữ liệu thử nghiệm cho thấy mô hình đề xuất thật sự mang lại hiệu quả thể hiện ở chỗ: độ chính xác của kết quả dự đoán cao hơn hoặc tương tương đương so với các mô hình khác, thể hiện qua các giá trị của các thông số NMSE, MAE và DS, trong khi đó thì số lượng luật mờ của các mô hình được rút gọn đáng kể.
- Như đã trình bày ở phần 4 của bài báo, một trong những hiệu quả mang lại của việc rút gọn và gom cụm các luật mờ trích xuất được là sẽ giảm độ phức tạp trong quá trình suy luận, đồng thời giúp cho việc diễn dịch và phân tích các luật này dễ dàng hơn..
- Việc phân tích ngữ nghĩa tập luật mờ trích xuất từ dữ liệu, còn gọi là luật mờ hướng dữ liệu, sẽ giúp cho các chuyên gia con người đánh giá được tập luật.
- qua đó có thể lựa chọn một số ít luật chuyên gia để bổ sung vào tập luật mờ hướng dữ liệu.
- Vấn đề khó khăn gặp phải chính là việc đồng bộ giữa phân hoạch mờ hướng dữ liệu và phân hoạch mờ theo chuyên gia.
- đây chính là cơ sở để có thể tích hợp luật chuyên gia với luật mờ hướng dữ liệu.
- Trong những nghiên cứu tiếp theo, chúng tôi sẽ nghiên cứu các giải pháp làm sáng tỏ phân hoạch mờ của tập luật mờ hướng dữ liệu, đồng bộ với phân hoạch mờ theo chuyên gia, từ đó có thể tích hợp luật chuyên gia với tập luật mờ hướng dữ liệu nhằm nâng cao hiệu quả dự đoán..
- Ứng dụng mô hình máy học véc-tơ tựa (SVM) trong phân tích dữ liệu điểm sinh viên