« Home « Kết quả tìm kiếm

Khai phá dữ liệu sử dụng luật kết hợp


Tóm tắt Xem thử

- KHAI PHÁ DỮ LIỆU SỬ DỤNG LUẬT KẾT HỢP.
- Ngành: Cụng Nghệ Thụng Tin Mó số: 1.01.10.
- Kiến trỳc kho dữ liệu 13.
- Hỡnh 1.2 Quỏ trỡnh phỏt hiện tri thức 14.
- Hỡnh 2.1 Mẫu kết quả với nhiệm vụ phõn nhúm 19.
- Hỡnh 2.2 Kiến trỳc hệ thống khai phỏ dữ liệu 20.
- Hỡnh 2.3 Quỏ trỡnh khai phỏ dữ liệu 21.
- Hỡnh 2.4 Mụ tả cõy quyết định cho khỏi niệm chơi tennis 25.
- Hỡnh 3.1 Cơ sở dữ liệu D 36.
- Hỡnh 3.2 Độ hỗ trợ của cỏc mục 36.
- Hỡnh 3.3 Độ hỗ trợ của cỏc tập mục 36.
- Hỡnh 3.4 Độ tin cậy của cỏc luật 36.
- Hỡnh 3.5 Cơ sở dữ liệu D minh họa cho thuật toỏn Apriori 42 Hỡnh 3.6: Quỏ trỡnh thực hiện thuật toỏn Apriori với độ hỗ trợ là 2/9 (2 lần ) 43.
- Hỡnh 3.7 Cõy băm 48.
- Hỡnh 3.8: Sơ đồ quỏ trỡnh khai phỏ bằng phõn 49.
- Hỡnh 3.9: CSDL cỏc tỏc vụ D minh họa cho thuật toỏn FP-Growth 55 Hỡnh 3.10: Bảng cỏc mục phổ biến đó được sắp theo thứ tự 56 Hỡnh 3.11: FP-Tree được xõy dựng dần khi thờm cỏc tỏc vụ T100, T200, T300 56 Hỡnh 3.12: FP-Tree được xõy dựng dần khi thờm cỏc tỏc vụ T400, T500 57.
- Hỡnh 3.13: Cõy FP-Tree của CSDL 57.
- Hỡnh 3.14: Thực hiện thuật toỏn FP-Growth với cõy cú chứa đường đơn 60.
- Hỡnh 3.15 Dữ liệu điều tra dõn số 62.
- Hỡnh 3.16- Mụ tả khỏi niệm phõn cấp của cỏc mục 65.
- Hỡnh 3.17 – Khai phỏ nhiều mức với độ hỗ trợ như nhau 66 Hỡnh 3.18 – Khai phỏ nhiều mức với độ hỗ trợ khỏc nhau 67 Hỡnh 3.19 – Khai phỏ nhiều mức với giảm độ hỗ trợ, lọc bởi mục đơn 68 Hỡnh 3.20 – Khai phỏ nhiều mức với giảm độ hỗ trợ, lọc bởi k-mục 68 Hỡnh 3.21: CSDL bỏn sỏch minh họa cho tập mục phổ biến đúng 70.
- Hỡnh 3.22 Cỏc tập mục phổ biến 73.
- Hỡnh 3.23 Dàn cỏc tập con đầy đủ cho CSDL hỡnh 3.21 76.
- Hỡnh 3.24 Thuật toỏn Charm theo thứ tự từ điển 77.
- Sự bựng nổ thụng tin là một yếu tố lớn cho sự phỏt triển xó hội.
- Cựng với sự phỏt triển vượt bậc này là yờu cầu đũi hỏi ngày càng cao trong việc xử lý và tỡm kiếm thụng tin sao cho nhanh và đạt được hiệu quả tối ưu nhất.
- Cựng với sự phỏt triển đú, cụng nghệ phần cứng với bộ xử lý tốc độ cao, ổ cứng, cỏc thiết bị băng từ dung lượng lớn song hành cựng với sự phỏt triển khụng ngừng của thiết bị viễn thụng đó và đang hỗ trợ đắc lực cho cụng cuộc phỏt triển thụng tin.
- Tõm điểm hiện nay là cỏc hệ thống khai thỏc thụng tin phục vụ việc tự động húa trong cỏc lĩnh vực kinh doanh cũng như quản lý trong điều hành ra quyết định.
- Hiện tượng ―bựng nổ thụng tin‖ và sự ra đời hàng loạt cỏc hệ quản trị cơ sở dữ liệu mạnh với cỏc cụng cụ phong phỳ và thuận tiện ra đời đó giỳp con người khai thỏc hiệu quả hơn nguồn tài nguyờn dữ liệu phức tạp này..
- Từ sự phỏt triển với tốc độ kinh ngạc của cỏc HTTT, việc khai phỏ dữ liệu phục vụ cho cỏc yờu cầu trợ giỳp quyết định cao hơn, chớnh xỏc và nhanh chúng hơn ngày càng nhiều, cú ý nghĩa ngày càng quan trọng và là yếu tố quyết định trong mọi lĩnh vực hoạt động kinh doanh và quản lý.
- Những thụng tin bổ ớch, những ―tri thức‖ thụng minh và hiệu quả rỳt ra từ những nguồn dữ liệu phức tạp và rộng lớn đó trở thành yếu tố sống cũn trong cỏc hoạt động thường ngày của từng tổ chức kinh doanh, quản lý.
- ―Khai phỏ dữ liệu‖ trở thành trung tõm của hàng loạt cỏc nghiờn cứu và thảo luận cực kỳ sụi động nhằm tỡm kiếm và khỏm phỏ ra được nhiều cỏch thức, phương phỏp hiệu quả với mong muốn tỡm ra được càng ngày càng nhiều cỏc tri thức mới, quan trọng và bổ ớch..
- Điểm qua tỡnh hỡnh phỏt triển thụng tin những năm gần đõy, ta cú một loạt cỏc lĩnh vực nghiờn cứu về tổ chức kho dữ liệu (data ware house, information ware house), cỏc hệ hỗ trợ quyết định (DSS.
- cỏc phương phỏp phỏt hiện tri thức và cỏc phương phỏp khai phỏ dữ liệu (data mining).
- Xột trờn khớa cạnh về nhu cầu ở mức trung bỡnh hay trong phạm vi nhỏ hẹp, cỏc kho dữ liệu cú thể giỳp khai thỏc thụng tin bằng cỏc cụng cụ truy vấn và bỏo cỏo cũng như được dựng để hỗ trợ phõn tớch.
- Nguyễn Ngọc Long, K9T3 4 Luận văn thạc sỹ.
- Khai phỏ dữ liệu sử dụng luật kết hợp trực tuyến, kiểm định cỏc giả thuyết.
- Tuy nhiờn điều người ta thấy thiếu ở đõy là vấn đề tri thức (thụng tin thụng minh), điều đú cú nghĩa là nếu dữ liệu trong cỏc kho dữ liệu được phõn tớch một cỏch thụng minh thỡ chỳng sẽ là nguồn tài nguyờn vụ giỏ.
- Việc tự động phõn tớch tỡm kiếm những thụng tin tiềm ẩn cú giỏ trị, chưa được phỏt hiện, những xu hướng phỏt triển và những yếu tố tỏc động lờn chỳng từ những dữ liệu khổng lồ cú sẵn là việc thực hiện quỏ trỡnh phỏt hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database-KDD)..
- Là sự kết hợp của nhiều thành tựu nghiờn cứu trong mọi lĩnh vực của đời sụng xó hội như lý thuyết nhận dạng, hệ chuyờn gia, trớ tuệ nhõn tạo, phỏt hiện tri thức trong cỏc CSDL là quỏ trỡnh tỡm ra tri thức tiềm ẩn, khụng biết trước và tiềm năng cú lợi từ dữ liệu trong cỏc CSDL lớn.
- Bằng cỏch thức này, KDD cú được sự toàn diện và đầy đủ trong cỏch tỡm kiếm và xử lý thụng tin một cỏch tiờn tiến và hiệu quả..
- cỏc tập dữ liệu.
- Chỉ cú cỏc mẫu, cỏc xu hướng được xem là đỏng quan tõm (xột theo một khớa cạnh nào đú) mới được coi là tri thức và tri thức là cú ớch khi nú cú thể giỳp đạt được mục đớch của hệ thống hoặc người dựng..
- Khai phỏ dữ liệu (Data mining - DM) được coi như là giai đoạn quan trọng nhất của KDD.
- Phõn lớp/phõn cụm dữ liệu 2.
- Cỏc luật kết hợp.
- Khai phỏ chuỗi..
- Nguyễn Ngọc Long, K9T3 5 Luận văn thạc sỹ.
- Sử dụng cỏc tri thức cú được..
- Luận văn sẽ khỏi quỏt trỡnh bày khỏi quỏt một số vấn đề về phỏt hiện tri thức, khai phỏ dữ liệu và tập trung trỡnh bàylàm rừ vấn đề khai phỏ luật kết hợp để khai thỏc cỏc CSDL lớn.:..
- Chương 1: Tổng quan về tổ chức và khai thỏc CSDL : Phõn tớch và nhỡn nhận lại cỏc cỏch thức tổ chức và lưu trữ CSDL truyền thống.
- Từ đú cú nhận xột và đỏnh giỏ về nhu cầu thụng tin trong bước phỏt triển mtới.
- Trong chương này cũng trỡnh bày cỏc giai đoạn của quỏ trỡnh phỏt hiện tri thức, xem xột tới một kiến trỳc mới về lưu trữ CSDL Data warehouse cựng với việc sử dụng nú cho khai phỏ dữ liệu - một giai đoạn chủ yếu.của quỏ trỡnh phỏt hiện tri thức..
- Chương 2 : Tổng quan về khai phỏ dữ liệu: tổng quan về mục tiờu, nhiệm vụ và cỏc quỏ trỡnh khai phỏ dữ liệu.
- Nờu khỏi quỏt cỏc vấn đề chớnh của khai phỏ dữ liệu, cỏc phương phỏp, kỹ thuật khai phỏ dữ liệu chớnh, phổ biến..
- Chương 3: Khai phỏ dữ liệu sử dụng luật kết hợp: chương này trỡnh bày chi tiết cỏc vấn đề chớnh yếu của khai phỏ luật kết hợp: bài toỏn xuất phỏt, mụ hỡnh hỡnh thức, cỏc thuật toỏn điển hỡnh của luật kết hợp giải quyết vấn đề khai phỏ dữ liệu..
- Chương 4: Thử nghiệm khai phỏ luật kết hợp.
- Nguyễn Ngọc Long, K9T3 6 Luận văn thạc sỹ.
- Khai phỏ dữ liệu sử dụng luật kết hợp.
- TỔNG QUAN VỀ TỔ CHỨC - KHAI THÁC CSDL VÀ PHÁT HIỆN TRI THỨC.
- Trong tỡnh hỡnh phỏt triển CNTT như vũ bóo hiện nay, trong hầu hết cỏc hoạt động của mỡnh, con người đều cú nhu cầu được ―mỏy tớnh‖ húa và mong muốn mọi thụng tin của mỡnh về mọi lĩnh vực cụng việc, giải trớ … đều được lưu trữ và mong muốn dễ dàng tỡm lại được khi cú nhu cầu cần thiết..
- Trong cỏc tổ chức cũng vậy, nhu cầu này cũn cao hơn rất nhiều và trở thành xu hướng chớnh, chủ đạo trong việc tin học húa hoạt động của mỡnh.
- Nhu cầu trao đổi thụng tin của con người càng trở nờn dễ dàng hơn rất nhiều và khiến nú trở nờn một trào lưu và là cụng cụ hữu ớch để con người cú thể chia sẻ thụng tin với nhau.
- Khi lượng thụng tin nhiều và trở nờn lớn mạnh.
- Người ta hiểu được rằng ai nắm giữ được nhiều thụng tin hơn người ấy sẽ trở thành thủ lĩnh.
- Chớnh điều ấy đó thỳc đẩy việc tăng lờn khụng ngừng của thụng tin và việc cỏc tổ chức dần đưa cỏc hoạt động kinh doanh, quyết định của mỡnh dựa trờn việc phõn tớch cỏc thụng tin đó trở thành phổ biến và quỏ quen thuộc..
- Nhiều hệ quản trị mạnh với cỏc cụng cụ phong phỳ và thuận tiện đó giỳp cho con người khai thỏc cú hiệu quả nguồn tài nguyờn dữ liệu.
- Mụ hỡnh CSDL quan hệ và ngụn ngữ vấn đỏp (SQL) đó cú vai trũ hết sức quan trọng trong việc tổ chức và khai thỏc cỏc.
- Cho đến nay, khụng một tổ chức kinh tế nào là khụng sử dụng cỏc hệ thống quản trị CSDL và hệ thống bỏo cỏo, ngụn ngữ hỏi đỏp nhằm khai thỏc cỏc CSDL phục vụ cho hoạt động tỏc nghiệp của mỡnh..
- Với cỏc cỏch thực hiện như vậy, hệ thống thụng tin cú được trong cỏc tổ chức hầu như chỉ mang tớnh chất lưu trữ chứ chưa cú được cỏi mà người ta gọi là thụng tin ―thụng minh‖.
- Cỏc vấn đề này lại chủ yếu mang tớnh chất chủ quan và do trỡnh độ năng lực của chớnh những con người trong cỏc tổ chức này..
- Trong khi vấn đề của tổ chức lại khụng thể phụ thuộc yếu tố con người.
- Điều này khiến cỏc nhà tổ chức quản lý kinh doanh mong muốn cú được cỏc thụng tin quan trọng và hữu ớch một cỏch tự động từ trong cỏc hệ thống thụng tin CSDL lớn chứ khụng theo cỏch đỏnh giỏ chủ quan của một số cỏ nhõn.
- 1.3 Tỡm kiếm bước phỏt triển mới trong tổ chức khai thỏc CSDL.
- Điều đú cho phộp tạo ra số lượng khổng lồ cỏc CSDL và thụng tin được cất giữ để quản lý kinh doanh, tỡm thụng tin, phõn tớch dữ liệu..
- Ngày nay dữ liệu cú thể được lưu trữ trong nhiều kiểu khỏc nhau.
- Một kiến trỳc CSDL gần đõy đó nổi bật lờn đú là kho dữ liệu (data warehowse), nú lưu dữ liệu từ nhiều nguồn khỏc nhau, tổ chức thống nhất để cú thể tạo ra quyết định.
- Cụng nghệ kho dữ liệu bao gồm: làm sạch dữ liệu, tớch hợp dữ liệu, phõn tớch trực tuyến (OLAP- Online analytical processingthuật ngữ tiếng Anh.
- đú là những kỹ thuật phõn tớch với chức năng như là túm tắt, hợp nhất, tập hợp,… để cú thể xem thụng tin từ cỏc gúc độ khỏc nhau.
- Cỏc cụng cụ OLAP hỗ trợ phõn tớch đa chiều và tạo ra quyết định, thờm vào đú là.
- Nguyễn Ngọc Long, K9T3 8 Luận văn thạc sỹ.
- Khai phỏ dữ liệu sử dụng luật kết hợp cụng cụ phõn tớch dữ liệu đũi hỏi phõn tớch sõu như phõn lớp dữ liệu, phõn nhúm, tỡm cỏc đặc tớnh của dữ liệu.u….
- Bờn cạnh chức năng khai thỏc dữ liệu cú tớnh chất tỏc nghiệp, sự thành cụng trong kinh doanh khụng cũn là năng suất của cỏc hệ thụng tin nữa mà là tớnh linh hoạt sẵn sàng đỏp ứng lại yờu cầu trong thức tế, CSDL cần đem lại những tri thức hơn là chớnh những dữ liệu đú.
- Để lấy được những thụng tin mang tớnh tri thức trong khối dữ liệu khổng lồ này người ta đi tỡm những kỹ thuật cú khả năng hợp nhất cỏc dữ liệu từ cỏc hệ thống giao dịch khỏc nhau, chuyển đổi thành một tập hợp cỏc CSDL ổn định, cú chất lượng được sử dụng riờng cho một vài mục đớch nào đú.
- Cỏc kỹ thuật đú được gọi là tạo kho dữ liệu (data warehousing) v và mụi trường cỏc dữ liệu đú được gọi là cỏc kho dữ liệu (data warehouse)..
- Cú thể định nghĩa kho dữ liệu như sau: ―Một kho dữ liệu là một tập hợp dữ liệu tớch hợp, hướng chủ đề cú tớnh ổn định.
- cú thể thay đổi theo thời gian nhằm hỗ trợ cho việc tạo ra quyết định‖.
- Một kho dữ liệu bao gồm:.
- Một hoặc nhiều cụng cụ để chiết truy xuấtkết xuất dữ liệu từ bất cứ dạng cấu trỳc dữ liệu nào..
- Cơ sở dữ liệu tớch hợp hướng chủ đề, ổn định, được tổng hợp từ cỏc dữ liệu bằng cỏch lập cỏc bảng dữ liệu..
- Là một cơ sở dữ liệu được thiết kế cú nhiệm vụ phõn tớch, sử dụng cỏc dữ liệu từ cỏc ứng dụng khỏc nhau..
- Hỗ trợ cho một sốnhiều người dựng, cú liờn quan với cỏc thụng tin liờn quan..
- Là dữ liệu chỉ đọc..
- Nguyễn Ngọc Long, K9T3 9 Luận văn thạc sỹ - Nội dung của nú được cập nhật thường xuyờn theo cỏch thờm thụng tin..
- Chứa cỏc dữ liệu lịch sử và hiện tại để cung cấp cỏc xu hướng thụng tin..
- Chứa cỏc bảng dữ liệu với cỏc kớch thước lớn..
- [1] Vũ Đức Thi, Cơ sở dữ liệu – Kiến trỳc và thực hành, Nhà xuất bản thống kờ năm 1997..
- [3] Nguyễn Thanh Thủy, Khai phỏ dữ liệu – Kĩ thuật và ứng dụng thỏng 8- 2001.