« Home « Kết quả tìm kiếm

Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện


Tóm tắt Xem thử

- Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện.
- Tổng quan về phát hiện tri thức, quá trình phát hiện tri thức từ cơ sở dữ liệu và khai phá dữ liệu.
- Nghiên cứu cơ sở dữ liệu đa phương tiện cũng như hệ quản trị cơ sở dữ liệu đa phương tiện.
- Tìm hiểu về luật kết hợp trong khai phá dữ liệu qua định nghĩa, bài toán, hướng tiếp cận và một số thuật toán phát hiện luận kết hợp..
- Trình bày khai phá luật kết hợp trong cơ sở dữ liệu hình ảnh: dữ liệu hình ảnh.
- Cơ sở dữ liệu đa phương tiện.
- Khai phá dữ liệu Content.
- Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ liệu là một vấn đề đang được quan tâm..
- Khai phá dữ liệu là giai đoạn quan trọng trong tiến trình khai thác tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh doanh..
- Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu.
- Khai phá luật kết hợp trong cơ sở dữ liệu Multimedia cho phép tiết kiệm chi phí và làm tăng hiệu suất làm việc..
- CHƢƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU.
- Phát hiện tri thức và khai phá dữ liệu.
- Quá trình phát hiện tri thức từ cơ sở dữ liệu.
- Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý.
- Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu.
- Làm sạch dữ liệu: Loại bỏ dữ liệu nhiễu hoặc dữ liệu không thích hợp..
- Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau..
- Chọn dữ liệu: Chọn những dữ liệu liên quan trực tiếp đến nhiệm vụ..
- Chuyển đổi dữ liệu: Chuyển DL về những dạng phù hợp cho việc khai phá..
- Khai phá dữ liệu..
- Trình diễn dữ liệu: Biểu diễn những tri thức khai phá được cho người sử dụng..
- Trong thực tế, các cơ sở dữ liệu được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phẩm, kinh doanh, tài chính.
- Thu thập và tiền xử lý dữ liệu.
- Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt.
- dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu.
- Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như sau:.
- Chọn lọc dữ liệu b.
- Làm sạch dữ liệu c.
- Làm giàu dữ liệu d.
- Khai thác dữ liệu.
- Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau..
- Khai phá dữ liệu.
- Khái niệm về khai phá dữ liệu.
- Nhiệm vụ của khai phá dữ liệu.
- Một số ứng dụng khai phá dữ liệu.
- Các kỹ thuật khai phá dữ liệu 1.3.4.1 Khai phá dữ liệu dự đoán.
- Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời.
- Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu..
- Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu..
- Bước 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước..
- Bước 2 : Sử dụng mô hình để phân loại dữ liệu..
- Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực..
- Khai phá dữ liệu mô tả.
- Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm b) Khai phá luật kết hợp.
- Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu.
- Kiến trúc của hệ thống khai phá dữ liệu.
- Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu CHƢƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN 2.1.
- Tổng quan cơ sở dữ liệu đa phương tiện.
- Media tĩnh bao gồm dữ liệu văn bản, hình ảnh tĩnh...
- Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu.
- CSDL : Được hiểu là một bộ sưu tập hoặc một kho dữ liệu hoặc các mục media.
- Hệ quản trị cơ sở dữ liệu (DBMS.
- Là một hệ thống dùng để quản trị cơ sở dữ liệu..
- Một MIRS đầy đủ gọi là một Hệ quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)..
- Chỉ mục là danh từ, đề cập đến cấu trúc dữ liệu hay đề cập đến tổ chức các đặc trưng đã trích chọn để tìm kiếm hiệu quả..
- Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đa phương tiện nhưng chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương tiện..
- Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia.
- Các DBMS ngày nay được phát triển khá tốt và được sử dụng rông rãi cho các dữ liệu có cấu trúc.
- Các OODBMS kết nối các khả năng của cơ sơ dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng)..
- Công cụ để tự động hoặc bán tự động trích chọn đặc trưng chứa trong dữ liệu đa phương tiện..
- Thước đo tương tự để truy tìm dữ liệu đa phương tiện thay cho đối sánh chính xác..
- Dữ liệu (các mục thông tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa.
- Các đặc trưng này sau đó được so sánh với các đặc trưng hay chỉ mục dữ liệu trong CSDL.
- Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn dữ liệu Multimedia?.
- Dữ liệu đa phương tiện.
- Các dữ liệu liên tục bao gồm các dữ liệu âm thanh, video thay đổi theo thời gian..
- Các kiểu dữ liệu thông thường của một CSDL multimedia bao gồm:.
- Dữ liệu văn bản (có hoặc không có định dạng)..
- Hệ quản trị cơ sở dữ liệu đa phương tiện 2.3.1 Mục đích của MDBMS.
- Độc lập dữ liệu.
- Có khả năng khai thác dữ liệu thuận tiện..
- Các kiến thức về tổng hợp dữ liệu đối với CSDL đa phương tiện,..
- Hỗ trợ truy vấn và khai thác dữ liệu.
- CHƢƠNG 3 – LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 3.1.
- Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước..
- Định nghĩa 3.1: Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữa các bản ghi T D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của các bản ghi trong D có chứa tập hợp X), ký hiệu là support(X) hay supp(X) (support sẽ tự sinh ra khi cài thuật toán)..
- hợp A là con của tập hợp B đều là tập hợp thường xuyên trong cơ sở dữ liệu D vì supp(A).
- Thuật toán Apriori nhị phân sử dụng các vector bit cho các thuộc tính, vector nhị phân n chiều ứng với n giao tác trong cơ sở dữ liệu.
- Có thể biểu diễn cơ sở dữ liệu bằng một ma trận nhị phân trong đó dòng thứ I tương ứng với giao tác (bản ghi) ti và cột thứ j tương ứng với mục (thuộc tính ) ij..
- Thay vì dựa vào cơ sở dữ liệu thô thuật toán Apriori- TID biểu diễn bên trong mỗi giao dịch bởi các ứng cử viên hiện hành..
- Như ta đã thấy, thuật toán Apriori đòi hỏi phải quét toàn bộ cơ sở dữ liệu để tính độ hỗ trợ cho các tập hợp ứng cử viên ở mỗi bước.
- Dựa trên tư tưởng ước đoán và đánh giá độ hỗ trợ, Agrawal đề xuất cải tiến Apriori theo hướng chỉ phải quét cơ sở dữ liệu lần đầu tiên, sau đó tính độ hỗ trợ cho các tập hợp 1 phần tử.
- Từ bước thứ hai trở đi, Thuật toán Apriori-TID nhờ lưu trữ song song cả ID của giao dịch và các ứng cử viên, có thể đánh giá, ước lượng độ hỗ trợ mà khỏi phải quét lại toàn bộ cơ sở dữ liệu..
- Sự khác nhau giữa Apriori và AprioriTID là: cơ sở dữ liệu không được sử dụng để đếm các support sau lần đầu tiên quét qua cơ sở dữ liệu.
- CHƢƠNG 4 – KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU HÌNH ẢNH Khai phá hình ảnh có liên quan tới phát hiện tri thức trong cơ sở dữ liệu hình ảnh..
- Chương này đề cập tới việc khai phá dữ liệu sử dụng luật kết hợp dựa trên nội dung hình ảnh..
- Quá trình khai phá dữ liệu gồm 4 bước: Tiền xử lý (Preprocessing), Trích chọn đặc trưng (Feature Extraction), chuẩn bị cơ sở dữ liệu trung gian và khai phá luật kết hợp.
- Dữ liệu hình ảnh.
- Bộ nhớ sử dụng để lưu trữ dữ liệu ảnh bitmap được gọi là “frame buffer”..
- Dữ liệu của ảnh được tính như sau:.
- 0 1 p ( z i ) log 2 p ( z i ) Đại lượng ngẫu nhiên Bước 3: Chuẩn bị cơ sở dữ liệu giao dịch.
- Các đặc trưng đã trích chọn được tổ chức trong một cơ sở dữ liệu dưới dạng một giao dịch – yếu tố cấu thành đầu vào (input) để phát sinh các luật kết hợp.
- Biến đổi cơ sở dữ liệu giao dịch thành ma trận Boolean..
- Biến đổi cơ sở dữ liệu vào ma trận Boolean 2.
- Tạo ra cơ sở dữ liệu giao dịch bằng cách trộn những đặc trưng đã tồn tại trong cơ sở dữ liệu nguyên thủy với các đực trưng trực quan mà ta có thể trích chọn từ hình ảnh sử dụng công nghệ phân tích ảnh.
- Hình dạng tế bào là rất quan trọng để thêm vào cơ sở dữ liệu đặc trưng - trở thành dữ kiện tốt.
- Đây là một phần quan trọng trong dự án khai phá dữ liệu.
- Đặng Văn Đức, Cơ sở dữ liệu đa phương tiện, Bài giảng cho cao học .
- Trần Hoài Nam, Cơ sở dữ liệu đa phương tiện yêu cầu và các vấn đề, Luận văn thạc sỹ, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2004.