« Home « Kết quả tìm kiếm

Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng


Tóm tắt Xem thử

- Dữ liệu và tri thức.
- KHAI PHÁ DỮ LIỆU.
- Khỏi niệm về khai phỏ dữ liệu.
- Mục tiờu của khai phỏ dữ liệu.
- Chức năng của khai phỏ dữ liệu.
- Phương phỏp khai phỏ dữ liệu.
- CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU.
- Kỹ thuật khai phỏ dữ liệu dự đoỏn.
- Phõn cụm dữ liệu.
- Phõn lớp dữ liệu và qui hồi.
- Khai phỏ dữ liệu sử dụng mạng Neural.
- Khai phỏ dữ liệu sử dụng thuật giải di truyền.
- Khai phỏ dữ liệu sử dụng cõy quyết định.
- CÁC CÁCH THỨC KHAI PHÁ DỮ LIỆU.
- Cỏc yờu cầu khi khai phỏ dữ liệu.
- CƠ SỞ DỮ LIỆU QUAN HỆ.
- Cơ sở dữ liệu quan hệ.
- Với mong muốn được tỡm hiểu và làm rừ hơn cỏc kỹ thuật khai phỏ tri thức từ dữ liệu sử dụng cõy quyết định nờn tụi đó lựa chọn đề tài “Phương phỏp khai phỏ dữ liệu bằng cõy quyết định và ứng dụng” làm đề tài cho luận 6 văn tốt nghiệp.
- Chương II: Cỏc khỏi niệm cơ bản, bao gồm cỏc khỏi niệm cơ bản về khai phỏ dữ liệu, cõy quyết định, cỏc khỏi niệm trong cơ sở dữ liệu quan hệ.
- Nội dung của chương đề cập đến phương phỏp xõy dựng cõy quyết định dựa trờn cỏc thuật toỏn khai phỏ dữ liệu bằng cõy quyết định bao gồm cỏc thuật toỏn CLS (Concept Learning System), ID 3 (Interactive Dichotomizer), thuật toỏn C4.5 và phương phỏp xõy dựng cõy quyết định dựa trờn phụ thuộc hàm xấp xỉ trong cơ sở dữ liệu quan hệ.
- Chương IV: Ứng dụng thử nghiệm, chương này đưa ra bài toỏn ứng dụng thử nghiệm, ỏp dụng cỏc thuật toỏn để thực hiện xõy dựng ứng dụng khai phỏ dữ liệu cho bài toỏn đó nờu.
- Khai phỏ dữ liệu và phỏt hiện tri thức là một hướng nghiờn cứu quan trọng, đang phỏt triển mạnh và phự hợp với cỏc cụng việc quan trọng đú.
- Việc xỏc định vấn đề và khụng gian dữ liệu để giải quyết vấn đề là chiến lược quyết định thành cụng hay thất bại trong suốt quỏ trỡnh khai phỏ dữ liệu.
- Đõy là quy trỡnh thực hiện cỏc thao tỏc làm sạch dữ liệu (Data Cleaning), tớch hợp dữ liệu (Data Integration), chọn dữ liệu (Data Selection), biến đổi dữ liệu (Data Transformation).
- Sau bước chuẩn bị, dữ liệu dựng cho khỏm phỏ tri thức đó được làm mịn phự hợp cho bước khai phỏ dữ liệu tiếp sau.
- Quy trỡnh 3: Khai phỏ dữ liệu (Data Mining).
- Quỏ trỡnh này bắt đầu khi hệ thống dữ liệu để khai phỏ đó được xõy dựng và thực hiện biến đổi.
- Cỏc lớp mụ thỡnh phổ biến của cỏc phương phỏp khai phỏ dữ liệu là.
- Mụ hỡnh kiểm tra sự thay đổi để phỏt hiện độ lệch trong dữ liệu và tri thức.
- Mục đớch của giai đoạn này là hiểu tri thức đó tỡm được việc khai phỏ dữ liệu đặc biệt là làm sỏng tỏ và dự đoỏn chỳng.
- Nghĩa là cỏc thụng tin hữu ớch tỡm được từ việc thực hiện khai phỏ sẽ chuyển thành dữ liệu gần gũi với người sử dụng hơn.
- Và để cú thể đỏnh giỏ cỏc luật đó được ỏp dụng vào trong quy trỡnh khai phỏ tri thức, người ta thường chia dữ liệu thành hai tập: Tập thứ nhất dựng để huấn luyện.
- Tuy khai phỏ dữ liệu chỉ là một bước trong quỏ trỡnh khai phỏ tri thức từ dữ liệu nhưng nú lại là bước tiờn quyết, quan trọng và ảnh hưởng đến kết quả của toàn bộ quỏ trỡnh.
- Túm lại, cú thể núi một cỏch khỏi quỏt, khai phỏ dữ liệu là một quỏ trỡnh tỡm kiếm thụng tin “tri thức” tiềm ẩn trong cơ sở dữ liệu lớn, khổng lồ.
- Qua những nội dung đó trỡnh bày ở trờn, chỳng ta cú thể hiểu một cỏch sơ lược rằng khai phỏ dữ liệu là quỏ trỡnh tỡm kiếm thụng tin hữu ớch, tiềm ẩn và mang tớnh dự bỏo trong cỏc cơ sở dữ liệu lớn.
- Việc khai phỏ dữ liệu nhằm cỏc mục đớch sau.
- Thực hiện phõn tớch xử lý, tớnh toỏn dữ liệu một cỏch tự động cho mỗi quỏ trỡnh xử lý dữ liệu để tỡm ra tri thức.
- Việc khai phỏ dữ liệu cú thể thực hiện được trờn nhiều dạng lưu trữ dữ liệu và nhiều hệ thống cơ sở dữ liệu khỏc nhau.
- Chớnh vỡ vậy, vấn đề quan trọng của khai phỏ dữ liệu là làm sao để cú một hệ thống khai phỏ dữ liệu cú thể thực hiện khai phỏ được đa dạng cỏc mụ hỡnh chứa đựng được nhiều ứng dụng và mong đợi khỏc nhau của người sử dụng.
- Hơn nữa, cỏc hệ thống khai phỏ dữ liệu nờn cú thể khỏm phỏ cỏc mụ hỡnh ở nhiều mức độ trừu tượng khỏc nhau.
- Phõn cụm (Cluster Analysis) Cỏch thức phõn cụm dựa trờn cỏc đối tượng dữ liệu mà khụng cần tới nhón lớp đó biết.
- Cỏc nhón lớp khụng cú mặt trong dữ liệu huấn luyện do chỳng khụng thể xỏc định trước được.
- Phõn lớp và dự đoỏn (Classification and Prediction) Một trong cỏc phương phỏp phõn tớch dữ liệu dựng trong khai phỏ dữ liệu là phương phỏp phõn lớp và dự đoỏn.
- Mụ hỡnh của đối tượng được rỳt ra dựa trờn sự phõn tớch nhẫn là một tập dữ liệu huấn luyện.
- Dự đoỏn là quỏ trỡnh liờn quan đến việc dự đoỏn giỏ trị dữ liệu và dự đoỏn nhón của lớp.
- Nú thường được sử dụng để dự đoỏn giỏ trị dữ liệu hơn là dự đoỏn nhón lớp.
- Thống kờ cỏc dữ liệu, hoạt động hoàn toàn theo dữ liệu.
- Đõy là kỹ thuật nhúm cỏc mẫu dữ liệu tương tự nhau theo cỏc đặc trưng của chỳng.
- Kết quả thu được là cỏc tập mẫu được trớch chọn cỏc cơ sở dữ liệu lớn và chỳng cú thể chung một số tớnh chất nào đú.
- Quỏ trỡnh tiến húa khiến cho dữ liệu cú tớnh chất “thớch nghi” ngày càng cao.
- CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Cỏc kỹ thuật khai phỏ dữ liệu bao gồm cỏc kỹ thuật chớnh sau: Kỹ thuật khai phỏ dữ liệu mụ tả.
- Cú nhiệm vụ mụ tả về cỏc tớnh chất hoặc cỏc đặc tớnh chung của dữ liệu trong cơ sở dữ liệu hiện cú.
- Kỹ thuật khai phỏ dữ liệu dự đoỏn cú nhiệm vụ đưa ra cỏc dự đoỏn dựa vào cỏc suy diễn trờn dữ liệu hiện thời.
- Phõn cụm dữ liệu là một vớ dụ của phương phỏp học khụng cú thầy.
- Giống như phõn lớp dữ liệu, phõn cụm dữ liệu khụng đũi hỏi phải định nghĩa trước cỏc mẫu dữ liệu huấn luyện.
- Vỡ thế, cú thể coi phõn cụm dữ liệu là một cỏc học bằng quan sỏt (Learning by observation), trong khi phõn lớp dữ liệu là học bằng vớ dụ (Learning by Example).
- Ngoài ra, phõn cụm dữ liệu cũn cú thể được sử dụng như một bước tiền xử lý cho cỏc thuật toỏn khai phỏ dữ liệu khỏc.
- Dự đoỏn nhón lớp cho cỏc mẫu dữ liệu là mục tiờu của phương phỏp phõn lớp dữ liệu.
- Cỏc mẫu dữ liệu này cũn được gọi là tập dữ liệu huấn luyện (Traning data set).
- Bước 2: Sử dụng mụ hỡnh để phõn lớp dữ liệu.
- Nếu độ chớnh xỏc là chấp nhận được, mụ hỡnh sẽ được sử dụng để dự đoỏn nhón lớp cho cỏc mẫu dữ liệu khỏc trong tương lai.
- Mục tiờu của phương phỏp này là phỏt hiện và đưa ra cỏc mối liờn hệ giữa cỏc giỏ trị dữ liệu trong cơ sở dữ liệu.
- Mẫu đầu ra của giải thuật khai phỏ dữ liệu là tập luật kết hợp tỡm được.
- Phương phỏp nhằm phỏt hiện ra cỏc luật kết hợp giữa cỏc thành phần dữ liệu trong cơ sở dữ liệu.
- Mạng Neural là một phương phỏp khai phỏ dữ liệu phỏt triển dựa trờn cấu trỳc toỏn học với khả năng học trờn mụ hỡnh hệ thần kinh của con người.
- Khai phỏ dữ liệu sử dụng thuật giải di truyền là phương phỏp khụng chỉ thực hiện phỏt hiện tri thức mà cũn phục vụ rất nhiều cỏc bài toỏn khỏc.
- Giải thuật di truyền là một giải thuật tối ưu húa, được sử dụng rất rộng rói trong việc tối ưu húa cỏc kỹ thuật khai phỏ dữ liệu trong đú cú kỹ thuật mạng Neural.
- Sự kết hợp của nú với cỏc giải thuật khai phỏ dữ liệu ở chỗ tối ưu húa là cần thiết để xỏc định cỏc giỏ trị tham số nào tạo ra cỏc luật tốt nhất.
- Phõn lớp khai phỏ dữ liệu luật là một cỏch tiếp cận quan trọng trong quỏ trỡnh khai phỏ dữ liệu, mục tiờu là tạo ra một tập luật tương đối nhỏ cú tớnh đỳng đắn cao từ cơ sở dữ liệu lớn.
- Cõy quyết định là một mụ tả tri thức dạng đơn giản nhằm phõn loại cỏc đối tượng dữ liệu thành một số lớp nhất định.
- Quỏ trỡnh xõy dựng cõy quyết định là quỏ trỡnh phỏt hiện ra cỏc luật phõn chia dữ liệu đó cho thành cỏc lớp đó được định nghĩa.
- CÁC CÁCH THỨC KHAI PHÁ DỮ LIỆU Mặc dự cỏc phương phỏp được ứng dụng trong khai phỏ dữ liệu rất phong phỳ và đa dạng cho việc giải quyết cỏc bài toỏn thực tế hiện nay.
- Khú khăn về cơ sở dữ liệu.
- Cú những dữ liệu chỉ đỳng trong từng thời điểm nhất định nờn chớnh điều này cú thể gõy nờn cỏc hiệu ứng phụ khi khai phỏ dữ liệu.
- Một số khú khăn nữa khi khai phỏ dữ liệu liờn quan đến cơ sở dữ liệu là cỏc thuộc tớnh khụng phự hợp, cỏc bộ giỏ trị khụng đầy đủ gõy nờn nhầm lẫn hoặc ảnh hưởng tới quỏ trỡnh khai phỏ.
- Đụi khi, cỏc thuộc tớnh cũn cú thể thiếu gõy nờn cỏc giỏ trị của dữ liệu bị giảm.
- Vỡ thế, việc phõn lớp cỏc hệ thống khai phỏ dữ liệu là cần thiết.
- Sự phõn lớp như thế cú thể giỳp những người dựng cú khả năng phõn biệt được cỏc hệ thống khai phỏ dữ liệu và nhận được cỏi nào là cỏi quan trọng đối với cỏc nhu cầu của hộ.
- Hệ thống khai phỏ dữ liệu cú thể được phõn lớp dựa theo nhiều tiờu chớ và yờu cầu khỏc nhau, như sau.
- Một hệ thống khai phỏ dữ liệu cú thể được phõn lớp dựa theo cỏc dạng cơ sở dữ liệu được khai phỏ.
- Bản thõn của hệ thống khai phỏ dữ liệu này cũng cú thể được phõn lớp tiếp, dựa theo cỏc tiờu chớ khỏc nhau, như: cỏc mụ hỡnh hay dạng dữ liệu, hoặc cỏc ứng dụng cú liờn quan.
- Mỗi lớp như thế sẽ yờu cầu một kỹ thuật khai phỏ dữ liệu riờng.
- Vớ dụ, phõn lớp dựa theo cỏc mụ hỡnh dữ liệu thỡ chỳng ta cú thể cú hệ thống khai phỏ dữ liệu quan hệ, giao dịch, hướng đối tượng, quan hệ đối tượng, hoặc kho dữ liệu.
- Cỏc hệ thống khai phỏ dữ liệu cú thể được phõn lớp dựa theo cỏc dạng tri thức mà chỳng khai phỏ.
- Nghĩa là dựa trờn cỏc chức năng khai phỏ dữ liệu như: Sự mụ tả, phõn biệt, phõn lớp, phõn nhúm, kết hợp, phõn tớch dư thừa và phõn tớch tiến húa.
- Một hệ thống khai phỏ dữ liệu toàn diện thường cung cấp nhiều chức năng khai phỏ dữ liệu.
- Ngoài ra, cỏc hệ thống khai phỏ dữ liệu cú thể được phõn biệt dựa trờn mức độ trừu tượng của tri thức được khai phỏ, bao gồm tri thức tổng quỏt (cú độ trừu tượng cao), tri thức cơ bản mức độ dữ liệu thụ, hoặc tri thức ở đa mức độ (quan tõm đến nhiều mức độ trừu tượng).
- Một hệ thống khai phỏ dữ liệu nõng cao sẽ cho phộp khai phỏ tri thức ở mức độ trừu tượng.
- Cỏc hệ thống khai phỏ dữ liệu cũng cú thể được phõn lớp theo cỏc kỹ thuật khai phỏ dữ liệu cơ bản được sử dụng.
- Cỏc hệ thống khai phỏ dữ liệu cũn cú thể được phõn lớp dựa theo cỏc ứng dụng được đưa vào.
- Khai phỏ dữ liệu là khõu cơ bản trong quỏ trỡnh phỏt hiện tri thức từ dữ liệu.
- Quỏ trỡnh khai phỏ dữ liệu xuyờn suốt qua nhiều giai đoạn từ xỏc định vấn đề, tiền xử lý (làm trong sỏng dữ liệu, tổng hợp dữ liệu, chuyển đổi dữ liệu.
- Trong cỏc giai đoạn này thỡ giai đoạn tiền xử lý dữ liệu là giai đoạn tốn thời gian nhất và giai đoạn khai phỏ dữ liệu là giai đoạn quan trọng nhất.
- Nhiệm vụ của khai phỏ dữ liệu là tỡm ra cỏc mẫu cần được quan tõm phự hợp với yờu cầu của đối tượng cần khai phỏ từ một khối lượng khổng lồ 35 dữ liệu.
- Tuy nhiờn, trong khai phỏ dữ liệu người ta thường chấp nhận: sự 37 phõn lớp dựng để dự đoỏn cỏc nhón lớp, cũn sự dự đoỏn dựng để tiờn đoỏn cỏc giỏ trị liờn tục (như việc sử dụng kỹ thuật hồi qui).
- Cỏc dạng chuẩn Thụng thường, việc cập nhật một cơ sở dữ liệu được thực hiện thụng qua cỏc thao tỏc thờm, sửa, xúa.
- Việc nghiờn cứu về phần tử ngoại lai cú nhiều ý nghĩa ứng dụng trong việc làm sạch dữ liệu.
- phỏt hiện sai sút trong quỏ trỡnh xõy dựng cõy quyết định khi khai phỏ dữ liệu.
- Entropy cho phộp xỏc định tớnh khụng thuần khiết của một mẫu với dữ liệu bất kỳ.
- Information Gian (thụng tin thu được) là một độ đo mức độ hiệu quả của một thuộc tớnh trong bài toỏn phõn lớp dữ liệu.
- Vớ dụ: Để minh họa cho thuật toỏn ID3, chỳng ta xõy dựng một cõy quyết định với tập dữ liệu huấn luyện như Bảng 2.1.1.1

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt