« Home « Kết quả tìm kiếm

Khai pha dữ liệu


Tóm tắt Xem thử

- Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ Data Mining: Applications, Trends &Tools [email protected] Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu.
- Bài viết này giới thiệu về một số lĩnh vực ứng dụng và các hướng nghiên cứu tiếp theo cũng như một số công cụ khai phá dữ liệu.
- Ứng dụng của khai phá dữ liệu (Data Mining Applications) Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi  Phân tích dữ liệu tài chính (Financial Data Analysis.
- Công nghiệp bán lẻ (Retail Industry.
- Công nghiệp viễn thông (Telecommunication Industry.
- Phân tích dữ liệu sinh học (Biological Data Analysis.
- Một số ứng dụng trong khoa học (Scientific Applications) Phân tích dữ liệu tài chính (Financial Data Analysis) Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữ liệu.
- Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính.
- Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụngđối với khách hàng.
- Phân tích hành vi khách hàng (vay, gửi tiền.
- Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính  Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác Công nghiệp bán lẻ (Retail Industry) Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do dữ liệu thu thập từ lĩnh vực này rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ.
- Điều tự nhiên là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính sẵn có trên môi trường Web.
- Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt.
- Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp bán lẻ.
- Khai phá dữ liệu trên kho dữ liệu khách hàng  Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực.
- Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.
- Đây là lý dotại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực này.
- Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông,phát hiện các hoạt động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông.
- Dưới đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này.
- Phân tích dữ liệu đa chiều viễn thông.
- Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng  Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông Phân tích dữ liệu sinh học (Biological Data Analysis) Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học(Bioinformatics).
- Sau đây là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học.
- Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.
- Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein  Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.
- Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập.
- Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
- Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập - Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.
- Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT) Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu.
- Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ khai phá dữ liệu: Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text, ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.
- Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang lưu trữ dữ liệu ở chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không.
- Một số Data Source phổ biến hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.
- Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical analysis, classification, prediction, clustering, outlier analysis, similarity search…) Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau: Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).
- Trực quan hóa dữ liệu (Data Visualization.
- Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization.
- Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization) Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI) 3.
- Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining) Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm.
- Khai phá dữ liệu Tin sinh học (Biological data mining.
- Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering.
- Khai phá dữ liệu web (Web mining.
- Khai phá dữ liệu phân tán (Distributed Data mining.
- Khai phá dữ liệu thời gian thực (Real time data mining.
- Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web - Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query language.
- Khai phá dữ liệu trực quan (Visual Data Mining.
- Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for mining complex types of data.
- Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and Information Security in data mining) 4.
- Một số công cụ khai phá dữ liệu (Data Mining Tools) Một số công cụ khai phá dữ liệu Software Name License Type Data Mining Tasks ANGOSS Commercial Classification Discovery, Cluster Discovery, Data KnowledgeSTUDIO Licence Visualisation, Discovery Visualisation (Link) Free - Open ARMiner Source Association Discovery (Link) Licence Classification Discovery, Cluster Discovery, Regression Bayes Server Commercial Discovery, Outlier Discovery, Discovery Visualisation, (Link) Licence Sequence Analysis CART® (Classification Commercial and Regression Trees) Classification Discovery Licence (Link) Data Applied Commercial Classification Discovery, Cluster Discovery, Association (Link) Licence Discovery, Outlier Discovery, Data Visualisation, Discovery Visualisation, Web Analytics GhostMiner Commercial Classification Discovery, Cluster Discovery, Outlier (Link) Licence Discovery, Data Visualisation 11Ants Model Builder Commercial Classification Discovery, Regression Discovery, Outlier (Link) Licence Discovery Molegro Data Modeller Commercial Cluster Discovery, Regression Discovery, Outlier (Link) Licence Discovery, Data Visualisation, Discovery Visualisation Cluster Discovery, Association Discovery, Text Mining, OmniAnalyser Commercial Data Visualisation, Discovery Visualisation, Web (Link) Licence Analytics, Social Network Analysis Classification Discovery, Cluster Discovery, Regression Free - Open Discovery, Association Discovery, Text Mining, Outlier R Source Discovery, Data Visualisation, Discovery Visualisation, (Link) Licence Sequence Analysis, Web Analytics, Social Network Analysis Free - Open Classification Discovery, Cluster Discovery, Regression RapidMiner Source Discovery, Association Discovery, Text Mining, Outlier (Link) Licence Discovery, Data Visualisation Classification Discovery, Cluster Discovery, Regression SAS Enterprise Miner Commercial Discovery, Association Discovery, Outlier Discovery, (Link) Licence Data Visualisation, Web Analytics Classification Discovery, Cluster Discovery, Regression SPAD Data Mining Commercial Discovery, Association Discovery, Text Mining, Data (Link) Licence Visualisation, Discovery Visualisation Classification Discovery, Cluster Discovery, Regression SPM (Salford Systems Commercial Discovery, Association Discovery, Outlier Discovery, Predictive Mining Suite) Licence Data Visualisation, Discovery Visualisation, Sequence (Link) Analysis, Web Analytics Classification Discovery, Cluster Discovery, Regression Discovery, Association Discovery, Text Mining, Outlier Clementine Commercial Discovery, Data Visualisation, Discovery Visualisation, (Link) Licence Sequence Analysis, Web Analytics, Social Network Analysis Classification Discovery, Cluster Discovery, Regression SQL Server Data Mining Commercial Discovery, Association Discovery, Text Mining, Outlier (Link) Licence Discovery, Data Visualisation, Discovery Visualisation, Sequence Analysis Classification Discovery, Cluster Discovery, Regression STATISTICA Data Discovery, Association Discovery, Text Mining, Outlier Commercial Miner Discovery, Data Visualisation, Discovery Visualisation, Licence (Link) Sequence Analysis, Web Analytics, Social Network Analysis Viscovery SOMine Commercial Classification Discovery, Cluster Discovery, Data (Link) Licence Visualisation, Discovery Visualisation VisuMap Commercial Classification Discovery, Cluster Discovery, Association Discovery, Text Mining, Outlier Discovery, Data (Link) Licence Visualisation, Discovery Visualisation, Sequence Analysis Free - Open Classification Discovery, Cluster Discovery, Association Weka Source Discovery, Outlier Discovery, Data Visualisation, (Link) Licence Discovery Visualisation