« Home « Kết quả tìm kiếm

Phân lớp khách hàng dựa trên hành vi, sử dụng kỹ thuật khai phá dữ liệu


Tóm tắt Xem thử

- PHÂN LỚP KHÁCH HÀNG DỰA TRÊN HÀNH VI, SỬ DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU.
- Ngày nhận bài Khai phá dữ liệu là một kỹ thuật phổ biến, được sử dụng để trích xuất thơng tin hữu ích từ dữ liệu đã cĩ, từ đĩ hỗ trợ ra các quyết định cĩ lợi cho tương lai.
- Trong bài báo này, nhĩm tác giả tập trung vào vấn đề phân lớp khách hàng, từ đĩ hỗ trợ tìm ra nhĩm khách hàng tiềm năng bằng phương pháp cây quyết định Decision Tree J48, Nạve Bayes Classification và rừng ngẫu nhiên Random Forest.
- Kết quả cho thấy, mơ hình dựa trên thuật tốn cây quyết định cho độ chính xác cao nhất, cĩ tính khả thi cao trong việc phân lớp dự đốn hành vi khách hàng..
- Kết quả này được kỳ vọng sẽ là gợi ý hiệu quả về một hướng tiếp cận cho các nhà phân tích khách hàng trong việc tìm ra nhĩm khách hàng tiềm năng thuộc lĩnh vực ngân hàng..
- KEYWORDS Phân lớp khách hàng Khai phá dữ liệu CRM.
- Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu quan trọng và ngày càng phát triển với mục đích trích xuất thơng tin từ số lượng lớn các tập dữ liệu tích lũy.
- Trong thời đại hiện nay, khai phá dữ liệu trở nên phổ biến trong lĩnh vực ngân hàng và là phương pháp phân tích hiệu quả cho phát hiện thơng tin hữu ích và chưa biết trong dữ liệu ngân hàng [1]-[3]..
- Nhận diện khách hàng tiềm năng là cơng việc đầu tiên trong quá trình quản lý quan hệ khách hàng (Customer Relationship Management - CRM), bao gồm các cơng việc chính là phân loại và phân tích khách hàng.
- Khách hàng được chia thành các tập con nhỏ hơn với các thuộc tính giống nhau.
- Mục tiêu của phân loại khách hàng là nhằm xác định xem ai là người chắc chắn sẽ mua sản phẩm/ dịch vụ.
- Khai phá dữ liệu (Data mining) được sử dụng phổ biến trong giai đoạn này để hỗ trợ việc nhận diện khách hàng tiềm năng..
- Phân loại khách hàng và hệ tư vấn, khuyến nghị khách hàng tín dụng, phát hiện và cảnh báo rủi ro là bước quan trọng trong việc tìm kiếm những khách hàng tiềm năng của ngân hàng.
- Để thực hiện được việc đĩ, các nghiên cứu đã thực hiện trên các thuật tốn khai phá dữ liệu khác nhau để tìm ra lời giải cho bài tốn của mình.
- Khách hàng được phân loại bằng các thuật tốn phân loại trong các kỹ thuật khai phá dữ liệu.
- Từ đĩ tìm ra được nhĩm khách hàng cĩ cùng sở thích sử dụng các dịch vụ, tiếp sau đĩ ngân hàng sẽ cĩ chiến lược riêng cho từng nhĩm khách hàng như vậy..
- Trong những năm gần đây, kỹ thuật khai phá dữ liệu và phân lớp đã được áp dụng thành cơng trong việc đề xuất mơ hình hỗ trợ khác nhau để nâng cao chất lượng dịch vụ [4]-[10]..
- Singh [4] đã đề xuất phương pháp phân lớp bằng việc khai phá luật kết hợp CBA (Classification Based Association rules) để tìm ra các dịch vụ ngân hàng mà khách hàng thường hay sử dụng kèm với một dịch vụ ngân hàng khác.
- Trong một nghiên cứu khác của Ikizer và cộng sự [5], mạng nơ-ron và các kỹ thuật truyền thống đã phân tích, áp dụng để xây dựng xếp hạng mơ hình cho cơng đồn vay vốn.
- Trong nghiên cứu này, Ikizer và cộng sự của mình đã sử dụng mẫu dữ liệu nhất quán bao gồm 18 thuộc tính về ba hiệp hội tín dụng và nghiên cứu của ơng đã chứng minh rằng, mạng nơ-ron nhân tạo hữu ích hơn trong dự báo các khoản vay khĩ địi, trong khi hồi quy logistic hữu ích trong việc phát hiện các khoản nợ xấu và tốt với tỉ lệ dự đốn chính xác 77%..
- Do vai trị rất quan trọng trong việc phân lớp nhận diện khách hàng tiềm năng, số lượng nghiên cứu để tìm hiểu sâu rộng về vấn đề này đã tăng nhanh trong những năm qua.
- Gần đây, cĩ một vài mơ hình phân lớp được nghiên cứu, đề xuất để hỗ trợ các nhà nghiên cứu trong việc phân lớp, dự đốn khách hàng tiềm năng [4]-[10].
- Tuy nhiên, ở thời điểm hiện tại, vẫn cịn thiếu các mơ hình tính tốn phù hợp và cơng cụ dự đốn với độ chính xác cao cĩ thể hỗ trợ hiệu quả cho việc phân loại nhận diện khách hàng, đặc biệt là nhận diện nhĩm khách hàng tiềm năng thuộc lĩnh vực ngân hàng.
- Bên cạnh đĩ, do sự tiến bộ của khoa học kỹ thuật và ảnh hưởng của cách mạng cơng nghiệp 4.0, dữ liệu khách hàng đã kiểm chứng thực nghiệm đang ngày càng được bổ sung nhiều hơn.
- Chính vì vậy, việc thiếu hụt mơ hình phân lớp phân loại khách hàng là một vấn đề cấp thiết cần được quan tâm giải quyết..
- Tiếp tục phát triển các ý tưởng nghiên cứu trước đây, trong bài viết này nhĩm tác giả tập trung vào vấn đề phân lớp khách hàng hỗ trợ tìm ra nhĩm khách hàng tiềm năng bằng phương pháp cây quyết định J48, Naive Bayes và rừng ngẫu nhiên..
- Xây dựng, huấn luyện mơ hình 2.1.
- Thu thập, tiền xử lý dữ liệu.
- Trong nghiên cứu này, bộ dữ liệu đã kiểm chứng thực nghiệm từ nghiên cứu của nhĩm tác giả Moro và cộng sự [1], [2] được lựa chọn sử dụng để xây dựng và huấn luyện mơ hình.
- Bộ dữ liệu sử dụng cho nghiên cứu này được thu thập từ kho dữ liệu học máy UCI [11], bao gồm thơng tin.
- của 45211 khách hàng (từ tháng 5 năm 2008 đến tháng 11 năm 2010) với 17 thuộc tính được thể hiện chi tiết ở Bảng 1..
- Thơng tin bộ dữ liệu khách hàng sử dụng trong nghiên cứu này.
- 13 campaign Số lượng liên hệ được thực hiện trong chiến dịch này và cho khách hàng này.
- 14 pdays Số ngày trơi qua kể từ lần cuối cùng khách hàng liên hệ từ 1 chiến dịch nào đĩ.
- 15 previous Số lượng liên hệ được thực hiện trước chiến dịch này và cho khách hàng này.
- Khách hàng cĩ đăng ký tiền gửi cĩ kỳ hạn hay khơng?.
- y =”yes”: Khách hàng cĩ mở tài khoản tiết kiệm cĩ kỳ hạn y =”no”: Khách hàng khơng mở tài khoản tiết kiệm cĩ kỳ hạn Để xây dựng dữ liệu huấn luyện (training data) và dữ liệu kiểm thử (testing data), trong nghiên cứu này, chúng tơi tiến hành lấy ngẫu nhiên 10% khách hàng từ tổng số 45.211 khách hàng đã thu được trước đĩ làm dữ liệu kiểm thử.
- Phần cịn lại gồm 90% khách hàng sẽ được sử dụng để xây dựng dữ liệu huấn luyện..
- Xây dựng và huấn luyện mơ hình.
- Trong bài báo này, mơ hình phân lớp khách hàng được xây dựng và huấn luyện dựa trên hành vi của khách hàng trong lĩnh vực ngân hàng, sử dụng một số kỹ thuật khai phá dữ liệu gồm Nạve Bayes, Decision Tree và Random Forest [3].
- Mơ hình tổng thể phân lớp khách hàng đề xuất trong bài báo này được thể hiện chi tiết ở Hình 1..
- Sơ đồ hệ thống phân lớp khách hàng.
- Nĩ là một phương pháp học máy mạnh và phổ biến đã được biết đến và áp dụng thành cơng cho bài tốn khai phá dữ liệu và phân lớp.
- Cây quyết định chính là cây mà mỗi nút biểu diễn một đặc trưng, mỗi nhánh (branch) biểu diễn một quy luật (rule), mỗi nút lá biểu diễn một kết quả (giá trị cụ thể hoặc một nhánh tiếp tục).
- Cây quyết định cĩ thể được dùng cho bài tốn phân lớp dữ liệu bằng cách xuất phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá..
- Cây quyết định về việc Choi (Y) hay Khơng chơi (N) đá bĩng của các bạn nam sinh viên Dựa theo mơ hình cây quyết định ở Hình 2, ta cĩ thể thấy được quy tắc để biết các bạn nam sinh viên quyết định cĩ đi chơi đá bĩng hay khơng (dựa trên các thơng tin liên quan đến thời tiết, độ ẩm, giĩ) sẽ như sau:.
- Nạve Bayes Classification (NBC) là một thuật tốn dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đốn cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê.
- NBC là một trong những thuật tốn được ứng dụng rất nhiều trong các lĩnh vực Machine learning dùng để đưa các dự đốn chính xác nhất dựa trên một tập dữ liệu đã được thu thập, vì nĩ khá dễ hiểu và độ chính xác cao.
- Nĩ thuộc vào nhĩm Supervised Machine Learning Algorithms (thuật tốn học cĩ hướng dẫn), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã cĩ..
- RF cĩ thể được sử dụng cho cả phân lớp và hồi quy.
- RF cũng là thuật tốn linh hoạt và dễ sử dụng nhất.
- Random forests tạo ra cây quyết định trên các mẫu dữ liệu được chọn ngẫu nhiên, được dự đốn từ mỗi cây và chọn giải pháp tốt nhất bằng cách bỏ phiếu..
- Với bài tốn phân lớp: cho một tập dữ liệu huấn luyện D.
- tưởng chính của mơ hình Random forest là lựa chọn ngẫu nhiên 2 lần (ngẫu nhiên mẫu và ngẫu nhiên thuộc tính) trong suốt quá trình xây dựng cây..
- Để đánh giá hiệu năng của mơ hình, 2 phương pháp phổ biến được sử dụng đĩ là: đánh giá chéo 5-mặt (5-fold cross-validation) và kiểm thử độc lập (Independent testing) sử dụng bộ dữ liệu độc lập (independent testing dataset với bộ dữ liệu huấn luyện (training dataset).
- Với phương pháp đánh giá chéo 5 mặt (Như hiển thị ở Hình 3, tập dữ liệu huấn luyện sẽ được chia ngẫu nhiên thành 5 tập con bằng nhau, lần lượt mỗi tập con sẽ được dùng cho vai trị kiểm thử trong khi 4 tập cịn lại được dùng làm dữ liệu huấn luyện..
- Mơ hình kiểm tra đánh giá chéo 5-mặt.
- Các đại lượng thơng dụng được sử dụng để đo lường và đánh giá hiệu năng của mơ hình bao gồm: Accuray (độ chính xác), MCC (hệ số tương quan Matthews và Error Rate [6]-[11]..
- P: Số bản ghi Positive trong tập dữ liệu N: Số bản ghi Negative trong tập dữ liệu.
- TP: Số bản ghi Positive (y = ”yes”) được dự đốn là Positive TN: Số bản ghi Negative (y = ”no”) được dự đốn là Negative..
- FP: Số bản ghi Negative (y = ”no”) được dự đốn là Positive FN: Số bản ghi Positive (y = ”yes”) được dự đốn là Negative..
- Ngồi ra, phương pháp kiểm thử, đánh giá độc lập cũng được sử dụng để đánh giá hiệu năng của mơ hình phân lớp, dự đốn.
- Như hiển thị ở Hình 4, theo phương pháp đánh giá kiểm thử độc lập, hiệu năng của mơ hình sẽ được xác định bằng việc sử dụng một bộ dữ liệu kiểm thử hồn tồn khác biệt và khơng trùng lặp với bộ dữ liệu huấn luyện đã dùng cho việc huấn luyện mơ hình (Independent testing dataset).
- Việc sử dụng bộ dữ liệu kiểm thử độc lập này sẽ giúp ta kiểm tra, đánh giá một cách khách quan nhất hiệu năng phân lớp của mơ hình..
- Mơ hình kiểm thử độc lập 3.
- Kết quả và một số thảo luận.
- Kết qu ả huấn luyện và đánh giá mơ hình phân lớp theo phương pháp đánh giá chéo 5-mặt.
- Như đã trình bày trước đĩ, trong nghiên cứu này, chúng tơi tiến hành sử dụng các thuật tốn khai phá dữ liệu như NBC, RF, J48 để xây dựng và huấn luyện mơ hình phân lớp dự đốn khách hàng cĩ mở tài khoản tiết kiệm cĩ kì hạn hay khơng.
- Theo thơng tin tổng hợp ở Bảng 2, mơ hình đạt hiệu năng phân lớp với độ chính xác của thuật tốn Decision Tree J48 là 90,46%, giá trị MCC.
- Kết quả đánh giá mơ hình bằng phương pháp đánh giá chéo 5-mặt.
- Kết quả đánh giá mơ hình sử dụng phương pháp kiểm thử độc lập.
- Như đã đề cập trước đĩ, phương pháp đánh giá độc lập giúp kiểm chứng khả năng thực nghiệm của mơ hình trong trường hợp thực tế, khách quan nhất.
- Để thực hiện được việc này, một bộ dữ liệu kiểm thử độc lập đã được xây dựng bao gồm 521 dữ liệu positive và 4000 dữ liệu negative..
- Kết quả kiểm tra đánh giá hiệu năng của mơ hình khi tiến hành bởi phương pháp kiểm thử độc lập được thể hiện chi tiết ở Bảng 3.
- Qua các con số thể hiện ở Bảng 3, ta thấy rằng mơ hình đạt độ chính xác tương đối cao và cĩ tính khả thi tốt trong việc dự đốn quyết định mở tài khoản tiết kiệm cĩ kì hạn của khách hàng.
- Ở phương pháp này, mơ hình dự đốn độ chính xác cao nhất sử dụng thuật tốn rừng ngẫu nhiên RF cho kết quả cao nhất với độ chính xác là 90,44% với MCC = 0,501..
- Kết quả đánh giá mơ hình bằng phương pháp kiểm thử độc lập.
- Để minh hoạ thêm cho hiệu quả của mơ hình đề xuất trong việc dự đốn hành vi khách hàng, từ đĩ tìm kiếm khách hàng tiềm năng cho lĩnh vực ngân hàng.
- chúng thơi xin đưa ra một số kết quả thu được từ thuật tốn NBC như thể hiện ở Bảng 4.
- Theo thơng tin từ Bảng 4, liên quan đến nghề nghiệp của khách hàng thì nhĩm doanh nhân (Entrepreneur) là nhĩm khách hàng tiềm năng nhất cho quyết định mở tài khoản tiết kiệm cĩ kỳ hạn.
- Tương tự, nhĩm khách hàng chưa cĩ nhà ở, nhĩm khách hàng chưa cĩ gia đình (hoặc đã ly hơn) cũng sẽ là nhĩm khách hàng tiềm năng nhất cho quyết định mở tài khoản tiết kiệm cĩ kỳ hạn..
- Kết quả thu được từ thuật tốn NBC.
- Tỉ lệ cĩ quyết định Y = Yes Job.
- Qua kết quả phân lớp trên, ta thấy rằng cả 3 mơ hình phân lớp khách hàng đều đạt độ chính xác đến 90%, trong đĩ mơ hình phân lớp dựa trên thuật tốn cây quyết định cho kết quả cao nhất..
- Điều này cho thấy các mơ hình phân lớp ở trên, đặc biệt là thuật tốn dựa trên cây quyết định rất phù hợp với bài tốn phân lớp dự đốn khách hàng thuộc lĩnh vực ngân hàng..
- Ngồi ra, thơng qua các kết quả nhận được từ một số mơ hình phân lớp ở trên, đặc biệt là mơ hình phân lớp dựa vào thuật tốn Nạve Bayes NBC ở Bảng 4 ta cĩ thể biết được một khách hàng cĩ đặc điểm gì thì sẽ là khách hàng tiềm năng..
- Theo tiêu chí nghề nghiệp khách hàng thuộc nhĩm doanh nhân (Entrepreneur) mở tài khoản tiết kiệm cĩ kì hạn nhiều nhất.
- Dựa theo tiêu chí Housing, khách chưa cĩ nhà cĩ xu hướng mở tài khoản tiết kiệm cĩ kì hạn nhiều hơn nhĩm khách hàng đã sở hữu nhà ở.
- Dựa theo tiêu chí kết hơn, tỉ lệ khách hàng chưa kết hơn và đã ly hơn mở tài khoản tiết kiệm nhiều hơn nhĩm người đã kết hơn..
- Từ phân tích trên ta thấy, khách hàng doanh nhân, khách hàng chưa cĩ nhà, khách hàng độc thân và đã ly hơn là những khách hàng tiềm năng, cần khai thác thêm những khách hàng cĩ đặc điểm như trên để tư vấn, thuyết phục hay cĩ những chính sách để khách hàng trở thành khách hàng tiềm năng.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt