« Home « Kết quả tìm kiếm

Tóm tắt Luận văn Thạc sĩ: Nghiên cứu một số phương pháp phân tích dữ liệu trên bảng quyết định trong hệ thống dữ liệu lớn


Tóm tắt Xem thử

- NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN TÍCH DỮ LIỆU TRÊN BẢNG QUYẾT ĐỊNH TRONG HỆ THỐNG.
- DỮ LIỆU LỚN.
- Các hệ thống dữ liệu lớn cũng như các phương pháp phân tích dữ liệu lớn đã được nhiều nhà khoa học quan tâm nghiên cứu.
- Hướng phân tích dữ liệu trên các bảng quyết định mà cụ thể là nghiên cứu các bài toán liên quan đến tập rút gọn trên bảng quyết định phát triển rất sôi động có nhiều ứng dụng trong thực tiễn..
- Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích.
- Từ đó, các kỹ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền công nghệ thông tin thế giới hiện nay nói chung và Việt Nam nói riêng..
- Khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: Market tinh, tài chính ngân hàng và bảo hiểm, khoa học kinh tế…Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được nhiều lợi ích to lớn..
- Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin IS=(U,A) với U là tập các đối tượng và A là tập thuộc tính.
- Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ tập dữ liệu.
- Bảng quyết định là hệ thông tin IS với tập thuộc tính A được chia thành hai tập con khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định.
- Bảng quyết định là mô hình thường gặp trong thực tế, Khi mà giá trị dữ liệu tại.
- các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định.
- Bảng quyết định là nhất quán khi phụ thuộc hàm C→D là đúng, trái lại là không nhất quán..
- Rút gọn thuộc tính là ứng dụng quan trọng nhất trong lý thuyết tập thô.
- Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu.
- Với bảng quyết định, rút gọn thuộc tính là tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định.
- Đối với một bảng quyết định có nhiều tập rút gọn khác nhau tuy nhiên trong thực hành thường không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá nào đó là đủ.
- Vì vậy, mỗi phương pháp rút gọn thuộc tính đều trình bày một thuật toán Heuristic tìm tập rút gọn.
- Các thuộc tính này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lượng dữ liệu lớn..
- Cho bảng quyết định nhất quán DS=(U,C  {d.
- tập thuộc tính R  C được gọi là tập rút gọn của thuộc tính điều kiện C nếu R là tập tối thiểu thỏa mãn phụ thuộc hàm R→{d}.
- Xét quan hệ r trên tập thuộc tính R  C{d} được gọi là một tập tối thiểu của thuộc tính {d} nếu R là tập thuộc tính tối thiểu thỏa mãn phụ thuộc hàm R→{d}.
- Do đó, khái niệm tập rút gọn của bảng quyết định tương đương với tập tối thiểu của thuộc tính {d} trên quan hệ, và một vài bài toán trên bảng quyết định liên quan đến tập rút gọn có thể được giải quyết bằng một số kết quả liên quan đến tập tối thiểu của một thuộc tính trong cơ sở dữ liệu quan hệ.
- bao gồm bài toán tìm tập tất cả các thuộc tính rút gọn, bài toán tìm họ tất cả các tập rút gọn, bài toán trích lọc tri thức dưới dạng các phụ thuộc hàm từ bảng quyết định, bài toán xây dựng bảng quyết định từ tập phụ thuộc hàm cho trước.
- Cho đến nay, hướng tiếp cận này chưa được nhiều tác giả quan tâm nghiên cứu..
- Trên bảng quyết định nhất quán, vấn đề nhiên cứu đặt ra là xây dựng các thuật toán có ý nghĩa liên quan đến tập rút gọn sử dụng một số kết quả liên quan đến tập tối thiểu của một thuộc tính trong một cơ sở dữ liệu quan hệ..
- Tổng quan về vấn đề nghiên cứu.
- Nhiều chính phủ quốc gia như Hoa Kỳ cũng đã rất quan tâm đến dữ liệu lớn..
- Trong tháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu USD để khởi động "Kế hoạch Nghiên cứu và Phát triển Big Data", mà đã là một sáng kiến phát triển khoa học và công nghệ chủ yếu thứ hai sau khi "xa lộ thông tin".
- Xong vấn đề then chốt trong việc xử lí các hệ thống Big Data là nghiên cứu phát triển các phương pháp phân tích dữ liệu mà thực chất là khai phá các hệ thống dữ liệu lớn để phát hiện tri thức.
- Luận văn này nghiên cứu tìm hiểu một số phương pháp phân tích dữ liệu liên quan đến các tập rút gọn trên cấu trúc bảng quyết định sử dụng lí thuyết tập thô..
- Mục đích nghiên cứu.
- Nghiên cứu và tìm hiểu một số nền tảng của hệ thống dữ liệu lớn.
- Tìm hiểu một số lĩnh vực phân tích tìm các giá trị của hệ thống dữ liệu lớn (thực chất là khai phá dữ liệu tìm các tri thức)..
- Nghiên cứu và tìm hiểu một số thuật toán liên quan đến tập rút gọn (tập thuộc tính rút gọn bảo toàn thông tin phân lớp của bảng quyết định).
- Đối tƣợng và phạm vi nghiên cứu.
- Nghiên cứu và tìm hiểu các tài liệu liên quan đến hệ thống dữ liệu lớn.
- Phạm vi nghiên cứu tập trung vào các nền tảng của hệ thống dữ liệu lớn bao gồm những định nghĩa, các đặc trưng, sự phát triển của Big Data và những thách thức mà Big Data mang lại.
- Các phương pháp phân tích dữ liệu nói chung và phân tích dữ liệu trên các bảng quyết định liên quan đến các tập rút gọn dùng để phân lớp dữ liệu..
- Các thuật toán cơ bản nhất liên quan đến tập rút gọn trên bảng quyết định nhất quán..
- Phƣơng pháp nghiên cứu.
- Ban đầu thu thập tài liệu Thu thập, tổng hợp các tư liệu, bài báo khoa học đã công bố, tham khảo, so sánh và phân tích để tìm ra vấn đề phù hợp phục vụ cho đề tài nghiên cứu.
- nghiên cứu tìm hiểu các nền tảng của hệ thống dữ liệu lớn, đặc biệt các phương pháp phân tích dữ liệu trên các bảng quyết định.
- CHƢƠNG 1: NGHIÊN CỨU CÁC NỀN TẢNG CỦA HỆ THỐNG DỮ LIỆU LỚN.
- Nghiên cứu một số nền tảng của hệ thống dữ liệu lớn (BigData) 1.1 Định nghĩa mô tả và các đặc trưng của Dữ liệu lớn(BigData) 1.2 Sự phát triển của BigData và các Công nghệ liên quan.
- 1.4 Các phương pháp tiền xử lý dữ liệu cho BigData 1.5 Các hướng ứng dụng chính của BigData.
- Nghiên cứu một số lĩnh vực phân tích của Big Data 3.
- CHƢƠNG 2: NGHIÊN CỨU MỘT SỐ CÁC PHƢƠNG PHÁP PHÂN TÍCH DỮ LIỆU TRÊN BẢNG QUYẾT ĐỊNH 2.1 Nghiên cứu khái quát hƣớng khai phá dữ liệu sử dụng lý thuyết tập thô.
- 2.2 Nghiên cứu phân tích một số thuật toán liên quan đến tập rút gọn trong bảng quyết định rút gọn nhất quán:.
- 2.2.2 Thuật toán tìm tất cả các thuộc tính rút gọn 2.2.3 Thuật toán tìm một tập rút gọn.
- 2.2.4 Thuật toán tìm họ tất cả các tập rút gọn.
- 2.2.5 Thuật toán tìm bảng quyết định không dư thừa 2.3 Kết luận chƣơng.
- Hình 3.1 Giao diện chƣơng trình tìm tất cả các tập rút gọn trên bảng quyết định nhất quán.
- Phần 3: Thực hiện thuật toán (Tab Thuật toán).
- Chọn tab “Dữ liệu” từ giao diện chương trình chính để nhập dữ liệu đầu vào cho chương trình.
- Chương trình sẽ yêu cầu chọn file dữ liệu đầu vào để thực hiện cho bước tính toán tìm tập thuộc tính rút gọn ở bước sau..
- Hình 3.2 Chọn file dữ liệu đầu vào cho chƣơng trình.
- Hình 3.3 Giao diện chƣơng trình hiển thị dữ liệu đầu vào.
- Tìm các thuộc tính rút gọn từ bộ dữ liệu đầu vào được hiển thị trên giao diện chương trình.
- Chọn Tab “Thuật toán”, sau đó chọn chức năng “Tìm tất cả các thuộc tính rút gọn” để thực hiện tìm các thuộc tính rút gọn..
- Hình 3.4 Tìm tất cả các thuộc tính rút gọn.
- 3.4 Thực hiện thuật toán với bộ dữ liệu Flu, EXAMPLE1, EXAMPLE 3.4.1 Bộ dữ liệu Flu.
- Cho bảng quyết định DS=(U,C  {c 3 },V,f).
- Bảng 3.2 Triệu chứng cúm của bệnh nhân Dữ liệu đầu vào:.
- Bảng quyết định DS=(U,C  {C3},V,f.
- Các thuộc tính C.
- Kết quả: Tập các thuộc tính rút gọn..
- Thực hiện thuật toán:.
- a) Kiểm tra xem bảng quyết định có nhất quán không Xấp xỉ dưới của BX (Yes.
- U D (BX) Không bằng U: Vậy bảng quyết định là không nhất quán..
- b) Các bƣớc thực hiện thuật toán.
- Vì bảng quyết định không nhất quán nên kết thúc thuật toán..
- Hình 3.5 Kết quả của bộ dữ liệu Flu 3.4.2 Bộ dữ liệu “EXAMPLE1”.
- Xét bảng quyết định có các thuộc tính và các đối tượng như sau:.
- Bảng 3.3 Bảng quyết định bộ dữ liệu Example1 Dữ liệu đầu vào:.
- Bảng quyết định DS=(U,C  {DC 4 },V,f.
- Kết quả: Tập các thuộc tính rút gọn.
- a) Kiểm tra xem bảng quyết định có nhất quán không Xấp xỉ dưới của BX (0.
- U: Vậy bảng quyết định nhất quán..
- Hoàn thành thuật toán (thuộc tính rút gọn l { AC 1 , BC 2.
- Hình 3.6 Kết quả khi thực hiện thuật toán với bộ dữ liệu Example1.
- 3.4.3 Bộ dữ liệu “EXAMPLE”.
- Bảng 3.4 Bảng quyết định bộ dữ liệu Example Dữ liệu đầu vào:.
- Bảng quyết định DS=(U,C  {d},V,f.
- U: Vậy bảng quyết định là nhất quán..
- Hoàn thành thuật toán (thuộc tính rút gọn là {a,b, c})..
- Hình 3.7 Kết quả tìm các tập rút gọn với bộ dữ liệu Example 3.5 Kết luận chƣơng.
- Chương này đã hướng dẫn cài đặt chương trình và các kết quả thử nghiệm của chương trình tìm tập thuộc tính rút gọn.
- Khai phá dữ liệu là một trong những kỹ thuật quan trọng, mang tính thời sự không chỉ đối với Việt Nam mà của cả nền công nghệ thông tin toàn cầu hiện nay..
- Với sự bùng nổ thông tin dữ liệu toàn cầu, trong mọi mặt của đời sống xã hội cùng với sự phát triển và ứng dụng ngày càng rộng rãi của công nghệ thông tin trong mọi lĩnh vực đã khiến cho nhu cầu xử lý những khối dữ liệu khổng lồ để phát hiện ra những thông tin, tri thức hữu ích cho người sử dụng một cách tự động, nhanh chóng và chính xác.
- Một trong những phương pháp quan trọng của kỹ thuật khai phá dữ liệu mà đề tài đi tìm hiểu để làm cơ sở dữ liệu cho một số thuật toán rút gọn trên bảng quyết định nhất quán.
- Trong khoảng thời gian không dài đề tài đã tổng kết những kiến thức cơ bản nhất để phục vụ cho việc nghiên cứu một số thuật toán liên quan đến tập rút gọn trên bảng quyết định nhất quán.
- Có thể nói đề tài là một tài liệu tham khảo khá khá đầy đủ, rõ ràng về các kiến thức cơ bản trong khi nghiên cứu một số thuật toán liên quan đến tập rút gọn trên bảng quyết định nhất quán.
- Thông qua đó đã cài đặt thuật toán ”Tìm tập tất cả các thuộc tính rút gọn trên bảng quyết định nhất quán” và chạy thử chương trình trên máy PC nhiều lượt với các bộ dữ liệu khác nhau..
- Hƣớng nghiên cứu tiếp theo.
- Trên cơ sở những nghiên cứu đã được trình bày trong luận văn, tiếp tục nghiên cứu sâu hơn một số thuật toán liên quan tới tập rút gọn trên bảng quyết định nhất quán.
- Nhằm loại bỏ các thuộc tính dư thừa không cần thiết mà vẫn bảo toàn thông tin bài toán.
- Thông qua việc loại bỏ các thuộc tính dư thừa, các bài toán khai phá dữ liệu trở nên đơn giản hơn, phù hợp với giai đoạn hiện nay.
- Trong quá trình học tập, tìm hiểu và nghiên cứu cùng với khoảng thời gian làm luận văn, tôi đã cố gắng tập trung tìm hiểu và tham khảo các tài liệu liên quan.
- Tuy nhiên do thời gian và điều kiện nghiên cứu có hạn nên không tránh khỏi những thiếu sót, rất mong nhận được sự nhận xét và những đóng góp ý kiến của quý thầy cô giáo và những ai quan tâm để luận văn được hoàn thiện hơn.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt