« Home « Kết quả tìm kiếm

ÁP DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG MÔ HÌNH CHẤM ĐIỂM TÍN DỤNG


Tóm tắt Xem thử

- ÁP DỤNG KỸ THUẬT TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG MÔ HÌNH CHẤM ĐIỂM TÍN DỤNG Ths.
- Nguyễn Thanh Thụy - Học viện Ngân hàng Tóm tắt: Rủi ro tín dụng luôn là một thách thức rất lớn đối với ngành tài chính ngân hàng, và thường được đánh giá thông qua điểm tín dụng.
- Đây là việc phân tích trên bộ dữ liệu lớn để tìm ra đặc điểm tín dụng của khách hàng.
- Các mô hình chấm điểm tín dụng có sử dụng kỹ thuật xử lý trong lĩnh vực trí tuệ nhân tạo đã có độ chính xác ngày càng cao.
- Trong bài báo này chúng ta xem xét một phương pháp được xây dựng dựa trên sự kết hợp của nhiều kỹ thuật đã và đang được sử dụng.
- Máy học hỗ trợ vector (Support Vector Machine –SVM), mạng thần kinh (Neron Network – NN) và cây quyết định (Decision Tree – DT) là những kỹ thuật cơ sở được dùng để so sánh với độ chính xác của phương pháp mới.
- Kết quả cho thấy mô hình kết hợp này có tỷ lệ chính xác khá tốt so với mô hình được xây dựng bởi các phương pháp khác.
- Các ngân hàng luôn đối mặt với nhiều loại rủi ro nhưng có thể nói rủi ro nguy hiểm nhất chính là rủi ro tín dụng.
- Cuộc khủng hoảng tài chính trong những năm gần đây đã khiến các tổ chức tài chính, ngân hàng chú trọng rất nhiều vào việc đánh giá rủi ro tín dụng.
- Rủi ro tín dụng là một vấn đề được nghiên cứu rất nhiều từ trước tới nay, nó có ảnh hưởng tới quyết định cho vay và lợi nhuận của ngân hàng.
- Đối với tất cả các ngân hàng, tín dụng mang lại nguồn lợi lớn nhất cho họ nhưng lại là hoạt động mang lại rủi ro rất lớn, và những rủi ro đó rất khó khăn để bù đắp.
- Rủi ro tín dụng có nghĩa là việc khách hàng không thể tuân thủ những cam kết tài chính của họ trong tương lai như việc họ trả tiền chậm hoặc không thể trả tiền cho ngân hàng [1].
- Việc áp dụng các kỹ thuật thống kê và trí tuệ nhân tạo trong việc đánh giá rủi ro tín dụng và phá sản đã được nghiên cứu từ những năm 70 của thế kỷ trước.
- Thông thường, các phương pháp tiếp cận được dựa trên những số liệu về khả năng trả nợ (có hoặc không) và những đặc điểm tài chính của khách hàng [2].
- Điểm tín dụng đã trở thành một công cụ hữu hiệu để các tổ chức tài chính đánh giá rủi ro trong tương lai.
- Mục tiêu của việc chấm điểm tín dụng là phân loại khách hàng thành hai nhóm: nhóm tín dụng tốt và nhóm tín dụng xấu.
- Quá trình chấm điểm tín dụng là một quá trình đánh giá độc lập.
- Những khách hàng có điểm tín dụng cao hơn có nghĩa là khi chấp nhận cấp tín dụng cho họ thì khả năng gặp rủi ro của ngân hàng cũng thấp hơn.
- Điểm tín dụng còn được sử dụng bởi các nhà đầu tư trái phiếu, tổ chức phát hành nợ và các viên chức chính phủ như một thước đo năng lực tài chính của các công ty mà họ đang xem xét đầu tư hoặc đánh giá.
- Việc tính điểm tín dụng chính xác là rất quan trọng đối với lợi nhuận của các tổ chức tài chính và ngân hàng.
- Chỉ cần độ chính xác tăng thêm 1% thì đã tránh được một lượng tổn thất rất lớn cho các ngân hàng.
- Các mô hình chấm điểm tín dụng xác định các chỉ tiêu tài chính có sức mạnh giải thích mang tính thống kê trong việc phân loại các khách hàng từ tổng thể chung.
- Giảm chi phí phân tích tín dụng.
- Điểm tín dụng ban đầu được đánh giá một cách chủ quan theo kinh nghiệm cá nhân và sau đó nó được dựa trên năm tiêu chuẩn: đặc điểm tiêu dùng, vốn, tài sản thế chấp, năng lực và điều kiện kinh tế.
- Nhưng với sự gia tăng mạnh mẽ về số lượng các khách hàng, việc chấm điểm tín dụng không thể tiến hành thủ công được nữa.
- Nhiều tổ chức tín dụng đang phát triển mô hình chấm điểm mới để hỗ trợ các quyết định tín dụng của mình, nếu nhiều khách hàng xứng đáng được cấp tín dụng hơn cũng đồng nghĩa lợi nhuận của họ cũng tăng lên.
- Mô hình chấm điểm tín dụng đầu tiên được xây dựng bởi Alman, từ năm 1968 [5].
- Các mô hình chấm điểm tín dụng có thể được chia ra làm hai loại: mô hình truyền thống và hiện đại.
- Các mô hình truyền thống được xây dựng dựa trên các kỹ thuật phổ biến như phân tích phân biệt và hồi quy Logistic [6, 7, 8].
- Điểm yếu của phương pháp phân tích phân biệt là giả định về mối quan hệ tuyến tính giữa các biến, nhưng trong thực tế các biến thường có mối quan hệ phi tuyến.
- Phương pháp hồi quy Logistic dự đoán mối quan hệ tuyền tính giữa các biến dưới dạng hàm mũ.
- Bởi vì sự thiếu hụt mối quan hệ phi tuyến giữa các biến nên cả hai phương pháp phân tích phân biệt và hồi quy Logistic được ghi nhận có sự thiếu chính xác [9].
- Gần đây , những phương pháp tiếp cận mới đã được áp dụng để phát triển các hệ thống chấm điểm hiệu quả hơn.
- Các nghiên cứu gần đây đã chỉ ra rằng các kỹ thuật trong lĩnh vực trí tuệ nhân tạo như cây quyết định (Decision Tree – DT), máy hỗ trợ vector (SVM), thuật toán di truyền (GA) và mạng thần kinh (Neuron Network –NN) rất thuận lợi cho các mô hình thống kê và tối ưu hóa để đánh giá rủi ro tín dụng.
- Không giống như các kỹ thuật thống kê, các kỹ thuật trí tuệ nhân tạo không giả định dữ liệu phải tuân theo một phân phối nhất định nào đó.
- Những kỹ thuật này tự động lấy kiến thức từ mẫu huấn luyện.
- Theo các nghiên cứu trước đây, phương pháp sử dụng các kỹ thuật trí tuệ nhân tạo tốt hơn các kỹ thuật thống kê trong việc đánh giá rủi ro tín dụng của doanh nghiệp, đặc biệt đối với các mô hình phi tuyến.
- Ứng dụng của các kỹ thuật nói trên đã được điều tra trong một số nghiên cứu .
- Baesens et al [10] đã tiến hành một nghiên cứu xây dựng mô hình chấm điểm tín dụng từ 17 kỹ thuật phân loại khác nhau trên tám bộ dữ liệu thực tế, kết quả cho thấy SVM có thứ hạng cao nhất về tỷ lệ chính xác.
- Ngoài ra, trong một nghiên cứu của Abdou et al [14, 15] đã chỉ ra rằng mô hình được xây dựng từ kỹ thuật NN cũng cho một tỷ lệ chính xác khá cao khi nhóm nghiên cứu của họ tiến hành những nghiên cứu ở Ý và Ai Cập.
- Mặc dù gần như tất cả các kỹ thuật có thể được sử dụng để đánh giá rủi ro tín dụng, tuy nhiên một số phương pháp được xây dựng dựa trên sự kết hợp giữa các kỹ thuật đã cho kết quả cao hơn khi chúng ta chỉ sử dụng duy nhất một kỹ thuật để tính toán.
- Trong học máy, các phương pháp kết hợp đã tạo ra một lĩnh vực nghiên cứu nhằm cải thiện hoạt động phân loại hoặc dự đoán hiệu suất qua phương pháp học duy nhất.
- Có thể lấy ví dụ như một mô hình phân loại được cấu thành từ một máy học không có giám sát để tiền xử lý dữ liệu đào tạo và một máy học có giám sát để tìm hiểu các kết quả phân nhóm.
- Trong [16], Huang et al đã xây dựng một mô hình kết hợp giữa SVM và NN, tương tự trong [17], một mô hình kết hợp giữa SVM và giải thuật di truyền đã được xây dựng.
- Bài viết này muốn giới thiệu phương pháp học tập hợp (ensemble learning) được kết hợp từ các kỹ thuật SVM, NN và DT.
- Phần còn lại của bài viết sẽ được tổ chức như sau: Phần II giới thiệu tổng quan về phương pháp học tập hợp, Phần III giới thiệu chi tiết về kết cấu của các thí nghiệm được sử dụng, Phần IV trình bày kết quả thực nghiệm khi áp dụng phương pháp này, Phần V sẽ trình bày những kết luận chung.
- Tổng quan về phương pháp học tập hợp (ENSEMBLE LEARNING) Học tập hợp là một phương pháp học máy sử dụng nhiều nhóm học để giải quyết cùng một vấn đề.
- Ngược với cách tiếp cận của các phương pháp học thông thường là cố gắng tìm hiểu một giả thuyết từ dữ liệu huấn luyện, phương pháp học tập hợp xây dựng một tập các giả thuyết và kết hợp chúng để sử dụng [18].
- Phương pháp này dùng để cải thiện hiệu xuất và độ chính xác của việc phân loại.
- Hệ thống phân loại được chia làm nhiều lớp dựa trên sự kết hợp của một tập các phân loại và sự hợp nhất của chúng để đạt được hiệu suất cao hơn.
- Ý tưởng chính của hầu hết các phương pháp học tập hợp là sẽ sửa đổi các tập dữ liệu huấn luyện , xây dựng n tập đào tạo mới.
- Trong các mô hình học tập hợp các lỗi và sai lệch của một bộ phận được bù đắp bởi các thành viên khác trong toàn tập hợp.
- Khả năng tổng quát hóa của phương pháp tập hợp thường mạnh hơn nhiều so với một phân loại đơn.
- Lý do đầu tiên là dữ liệu huấn luyện có thể không cung cấp đủ thông tin lựa chọn một bộ phân loại tốt nhất.
- Như vậy tập hợp các phương pháp có thể bù đắp cho những điều không hoàn hảo trong quá trình tìm kiếm quy luật.
- Thiết kế phương pháp Không có kỹ thuật nào trong lĩnh vực trí tuệ nhân tạo được cho là tốt nhất khi xây dựng mô hình chấm điểm tín dụng, mà những gì tốt nhất phụ thuộc vào chi tiết của vấn đề, các cấu trúc dữ liệu, các đặc điểm sử dụng, mức độ mà nó có thể tách riêng các lớp học bằng cách sử dụng đặc điểm và mục tiêu của việc phân loại.
- Trong bài viết trình bày mô hình sử dụng hai kỹ thuật học: kỹ thuật phân cụm (clustering) và kỹ thuật phân lớp (classification).
- Kỹ thuật phân cụm sử dụng phương pháp C – trung bình mờ (fuzzy C- Mean – FCM), còn kỹ thuật phân lớp sử dụng 3 phương pháp phân loại phổ biến: SVM, NN, và DT.
- Toàn bộ quá trình bao gồm phân cụm C- trung bình mờ , chuẩn hóa, xây dựng các nhánh phân loại và cuối cùng xác định một phương pháp kết hợp các kết quả được tạo bởi mỗi nhánh.
- Trong bài viết này, 10 lớp phân loại được sử dụng như thành viên của tập hợp.
- Mục tiêu của mô hình đề xuất là sử dụng đầy đủ các kiến thức và trí tuệ của các lớp trong nhóm để thực hiện một quyết định hợp lý trên một tập tiền xác định của các tiêu chí.
- Mỗi phần của mô hình chấm điểm kết hợp được mô tả ngắn gọn trong các mục nhỏ dưới đây.
- Hình 1: Mô hình đề xuất A.
- Phân cụm (Clustering) Giai đoạn đầu tiên của mô hình là phân cụm mờ tập dữ liệu, giai đoạn này như một quá trình trước khi xây dựng các nhánh phân lớp có tính năng tương tự.
- Quá trình tiền xử lý này sẽ dẫn đến các nhánh có tính huấn luyện tốt hơn và kết quả là, một mô hình phân loại tốt hơn được thực hiện và xác suất của sai sót được giảm xuống so với việc sử dụng tập dữ liệu ban đầu.
- Đôi khi, ngay cả với một mô hình phân loại chính xác, nhưng với một trường hợp mới cũng bị hạn chế và những hạn chế như vậy thường phát sinh từ dữ liệu huấn luyện.
- Do đó nếu dữ liệu huấn luyện có chất lượng cao hơn thì các nhánh phân loại cũng sẽ chính xác hơn.
- Mô hình sử dụng phân cụm mờ C – trung bình để tạo ra 10 cụm tương ứng với 10 nhánh phân loại.
- Phân cụm mờ C- trung bình là một phương pháp cho phép một bộ phần dữ liệu thuộc về hai hay nhiều cụm.
- Phương pháp này thường được sử dụng trong nhận dạng mẫu.
- là một chuẩn bất tương đương giữa việc đo dữ liệu và tâm.
- Chuẩn hóa Dữ liệu cần được chuẩn hóa để đưa vào các nhánh.
- Phân lớp Như đã đề cập, ba kỹ thuật phân lớp được sử dụng và so sánh trong bài viết này bao gồm SVM, NN và DT được trình bày cụ thể phía dưới C1.
- Máy hỗ trợ Vector (SVM) SVM là một kỹ thuật phân lớp trong lĩnh vực trí tuệ nhân tạo, và tính hiệu quả của kỹ thuật này cũng được chứng minh trong nhiều nghiên cứu như phân loại văn bản, rủi ro tín dụng và dự báo phá sản.
- SVM dựa trên ý tưởng của cấu trúc giảm thiểu rủi ro để xây dựng.
- SVM sử dụng một mô hình tuyến tính để thực hiện ranh giới lớp phi tuyến thông qua các bản đồ phi tuyến để vạch ra một ranh giới tuyến tính của các vector đầu vào thành một không gian đặc trưng có số chiều lớn.
- SMV là một kỹ thuật tối ưu hóa trong đó lỗi dự báo và độ phức tạp của mô hình đồng thời được giảm thiểu.
- Mạng thần kinh (NN) Mạng thần kinh ( Neuron Network – NN) được định nghĩa là bộ vi xử lý song song lớn, có xu hướng bảo tổn các kiến thức thực nghiệm và cho phép tiếp tục sử dụng.
- NN mô phỏng bộ não con người với mục đích thu thập các bằng chứng thực nghiệm trong quá trình học tập, ngoài ra các kết nối liên thần kinh (sysnapse) được sử dụng để lưu trữ các tri thức.
- Trong lĩnh vực kinh tế, NN được sử dụng chủ yếu trong trường hợp các biến có mối quan hệ phi tuyến.
- Cây quyết định (Decision Tree –DT) Một cây quyết định (DT) là một mô hình của bộ dữ liệu được phân về các nhánh.
- Bạn có thể thực hiện quá trình phân lớp bằng việc sử dụng các thuộc tính phân tách cho tới khi bạn gặp các nút lá, hoặc một thiết bị đầu ra.
- Một DT cũng có thể được chuyển đổi thành những quy tắc được sử dụng cho nhiệm vụ dự đoán sức mạnh tài chính hoặc khả năng phá sản.
- Nhánh tổng hợp Biểu quyết đại đa số là phương pháp được sử dụng phổ biến nhất để kết hợp kết quả của các nhánh thành viên trong mô hình tập hợp.
- Ưu điểm của phương pháp này cho phép kết hợp được sự chính xác của các thành viên nên kết quả phân loại cũng tốt hơn.
- Phân tích thực nghiệm Để kiểm tra hiệu năng của mô hình trong bài báo này, các số liệu thực tế của UCI được sử dụng và kết quả sẽ được trình phần ở những mục nhỏ phía sau: A.
- Kết quả thực nghiệm Các tiêu chí dùng để đánh giá sự chính xác của mô hình bao gồm độ chính xác loại I, loại II và tổng thể được tính toán theo công thức sau: Độ chính xác loại I = Độ chính xác loại II = Độ chính xác tổng thể = Kết quả thu được như sau: Bảng 2: So sánh độ chính xác của các phương pháp Khi so sánh độ chính xác của mô hình được xây dựng, chúng ta có thể thấy mô hình được trình bày trong bài viết cũng có kết quả rất lạc quan so với những mô hình được xây dựng bằng các kỹ thuật khác.
- Kết luận Trong bài báo này, một mô hình kết hợp đã được trình bày theo phương pháp học tập hợp.
- Mô hình đã sử dụng sự kết hợp giữa ba kỹ thuật cơ sở trong lĩnh vực trí tuệ nhân tạo: Phân cụm mờ C – trung bình, SVM, NN và DT.
- Đây là những kỹ thuật phổ biến được sử dụng để xây dựng mô hình chấm điểm.
- Và sự kết hợp chúng với nhau cũng tạo ra mô hình có kết quả khá tốt khi so sánh với các mô hình chỉ sử dụng một kỹ thuật đơn lẻ để xây dựng.
- 2008, doi: 10.1016/j.eswa .
- 2009, doi: 10.1016/j.ejor .
- 2005, doi: 10.1016/j.eswa .
- 2000, doi: 10.1016/S .
- 2009, doi: 10.1016/j.eswa .
- 127-135, doi: 10.1016/j.eswa .
- 979-1003, doi: 10.1016/j.ejor .
- 2008, doi: 10.1016/j.qref .
- 223- 230, doi: 10.1016/j.eswa