- BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 1. - GIỚI THIỆU CHUNG VỀ KHAI PHÁ DỮ LIỆU. - Tại sao khai phá dữ liệu (KPDL)?. - Kiểu dữ liệu trong KPDL. - Tại sao khai phá dữ liệu. - B ùng nổ dữ liệu và dữ liệu lớn (Big Data). - Ngành kinh t ế tri thức, dữ liệu và thông tin ( Infonomics. - Phát hiện tri thức từ dữ liệu. - Nhu cầu khai phá dữ liệu tại Việt Nam. - Ví dụ: Tại sao khai phá dữ liệu. - Phân tích dữ liệu giúp ứng viên Tổng thống Mỹ. - 346184.html GMT+7)) TÍNH MỚI LẠ TỪ DỮ LIỆU LỚN. - PHƯƠNG PHÁP, KỸ THUẬT MIỀN ỨNG DỤNG: PHÂN TÍCH DỮ LIỆU TÂM LÝ. - Công nghệ: Bùng nổ dữ liệu: Luật Moore. - Bùng nổ dữ liệu: Giá thành và thể hiện. - Giá tạo dữ liệu ngày càng rẻ hơn. - Chiều hướng giá tạo mới dữ liệu giảm dần. - Phân bổ lượng dữ liệu theo khu vực. - Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT. - Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần. - Nhu cầu nắm bắt dữ liệu. - Nhu cầu thu nhận tri thức từ dữ liệu. - Dịch vụ: dữ liệu &. - Khoa học: dữ liệu &. - Kinh tế dịch vụ: Từ dữ liệu tới giá trị. - Từ dữ liệu tới trí tuệ. - Dữ liệu (data): dữ kiện không ngữ cảnh. - Dữ liệu có ý nghĩa, dữ liệu trong ngữ cảnh. - Tri thức (knowledge): Thông tin được dung để phát hiện và hiểu được mẫu trong dữ liệu. - Quá trình tiến hóa dữ liệu tới trí tuệ. - Dữ liệu lớn không ngừng gia tăng và giá trị. - Giá trị dữ liệu: Ví dụ 1 (Capital One). - Thiếu dữ liệu và giải pháp. - Không có dữ liệu với mức thẻ tín dụng khác nhau.. - 4 năm: vừa thu thập dữ liệu vừa hoàn thiện mô hình. - Giá trị dữ liệu Linkedln mang lại cho Microsoft. - 23 tỷ đô-la Mỹ chủ yếu từ giá trị dữ liệu. - Đo lường giá trị dữ liệu. - Ban đầu: Dữ liệu phục vụ quảng cáo tốt hơn. - Hiện tại: Dữ liệu là một dịch vụ trí tuệ nhân tạo. - Họ thu thập được các dữ liệu gì. - Dữ liệu đó có thể được sử dụng (kinh doanh) như thế nào. - Giá trị dữ liệu: Ví dụ 2 (Microsoft-LinkedIn). - Ví dụ 3: Chi tiêu dữ liệu . - Không bao gồm quy trình thu thập dữ liệu nội bộ. - 20%) cho việc tìm nguồn cung ứng dữ liệu. - Giá trị dữ liệu: Thị trường dữ liệu châu Âu. - Việt nam:Trường hè Khai phá dữ liệu 2016. - Trường hè “Khai phá dữ liệu” tại Nhà G3, ĐHCN.. - 2017 (dự kiến): Trường hè “Khoa học dữ liệu”? Trao đổi 19/8/2016. - Trích chọn các mẫu hoặc tri thức hấp dẫn ( không tầm thường, ẩn, chưa biết và hữu dụng tiiềm năng) từ một tập hợp lớn dữ liệu. - KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả|Khai phá dữ liệu. - Quá trình Khai phá dữ liệu. - Khởi tạo một tập dữ liệu đích: chọn lựa dữ liệu. - Chuẩn bị dữ liệu và tiền xử lý: (huy động tới 60% công sức!). - Thu gọn và chuyển đổi dữ liệu. - khai quật/nạo vét dữ liệu (data archaeology/ dredging),. - Phân tích/xử lý mẫu/dữ liệu (data/pattern analysis/processing). - Chu trình phát triển tri thức thông qua khai phá dữ liệu. - Khoa học dữ liệu. - Quá trình khoa học dữ liệu (trái) và các chuyên ngành liên quan (phải). - Dữ liệu và Mẫu. - Dữ liệu (tập dữ liệu). - Chuyên gia phân tích dữ liệu. - KDL chuyên đề (Data Marts) Nguồn dữ liệu. - Kiểu dữ liệu được KP. - Khai phá dữ liệu phân lớp:. - từ dữ liệu. - Quan hệ kết hợp giữa các biến dữ liệu: Tương quan và nhân quả). - Ví dụ, trong khai phá dữ liệu Web. - Dữ liệu được khai phá. - July 12, 2021 Kho dữ liệu và khai phá dữ liệu: Chương 1 63. - CSDL và KPDL: kiểu dữ liệu. - Kho dữ liệu. - Dữ liệu không gian và thời gian. - Dữ liệu chuỗi thời gian. - Dữ liệu dòng. - Dữ liệu đa phương tiện. - Dữ liệu không đồng nhất và thừa kế. - Phân tích/khai phá: Kiểu đa dạng dữ liệu. - Dữ liệu (cơ sở dữ liệu) quan hệ: bảng: Hầu hết 203/264. - Xử lý CSDL: dữ liệu thuộc hệ quản trị CSDL. - KPDL: Dung lượng dữ liệu lớn. - dữ liệu kích thước bất kỳ. - Khai phá dữ liệu : Mục tiêu kinh doanh. - Đặc biệt như phân tích dữ liệu thăm dò (EDA: Exploratory Data Analysis) cũng như dự báo [Fied97, HD03].. - Phân biệt giữa bài toán thống kê và bài toán khai phá dữ liệu. - Kiểm định giả thiết TK: một mô hình giả thiết + tập dữ liệu quan sát được.. - Bài toán học KPDL: Cho tập dữ liệu (mô hình chưa có). - Mô hình kết quả phải phù hợp với tập toàn bộ dữ liệu ->. - cho toàn bộ dữ liệu trong miền ứng dụng và cần độc lập nhau. - Cách máy tính học (nâng cao năng lực) dựa trên dữ liệu.. - Một số nội dung học máy với khai phá dữ liệu. - Hai giả thiết: (i) Dữ liệu tìm kiếm là không cấu trúc. - Phân tích dữ liệu và hỗ trợ quyết định. - Khai phá dữ liệu dòng. - Phân tích DNA và dữ liệu sinh học. - Nguồn dữ liệu có từ đâu. - Khai phá các kiểu tri thức khác nhau từ dữ liệu hỗn tạp như sinh học, dòng, web…. - Xử lý dữ liệu nhiễu và dữ liệu không đầy đủ
Xem thử không khả dụng, vui lòng xem tại trang nguồn hoặc xem
Tóm tắt