« Home « Kết quả tìm kiếm

Tiếp cận mờ trong phân cụm dữ liệu


Tóm tắt Xem thử

- Tiếp cận mờ trong phân cụm dữ liệu.
- Khoa Luật Trường Đại học Công nghệ.
- Đại học Quốc gia Hà Nội Luận văn ThS.
- Công nghệ thông tin: 60 48 05.
- Trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ dựa trên hai thuật toán C-means mờ (FCM) và Gustafson – Kessel (GK).
- Đặc biệt đi sâu vào kỹ thuật đánh giá số cụm nhờ hàm chỉ số.
- Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới cho phân cụm mờ nhờ kết hợp ưu điểm của chỉ độ nén (compactness) và độ chồng nhau (overlap).
- Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu.
- Độ chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm.
- Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có, đặc biệt là trong trường hợp các cụm khác nhau về kích thước và mật độ, cũng như trong trường hợp các cụm chồng nhau...
- Phân cụm dữ liệu.
- Phân cụm mờ.
- Phân cụm dữ liệu là bài toán thuộc vào lĩnh vực học máy không giám sát và đang được ứng dụng rộng rãi để khai thác thông tin từ dữ liệu.
- Nó có nhiệm vụ tổ chức một tập các đối tượng dữ liệu thành các cụm sao cho những đối tượng trong cùng một cụm thì “tương tự” nhau trong khi các đối tượng trong các cụm khác nhau thì “kém tương tự” nhau..
- Phương pháp phân cụm dữ liệu truyền thống (PCDL rõ) chia một tập dữ liệu ban đầu thành các cụm dữ liệu và mỗi đối tượng chỉ thuộc về một cụm.
- Nhưng trong thực tế ranh giới giữa các cụm thường không rõ ràng, một đối tượng dữ liệu có thể thuộc về nhiều cụm khác nhau, do đó phương pháp này không mô tả được dữ liệu thực.
- hiệu quả và tính chính xác cho kết quả phân cụm, người ta đã áp dụng lý thuyết tập mờ vào việc phân cụm dữ liệu xây dựng lên phương pháp phân cụm dữ liệu mờ..
- Hiện nay, phân cụm dữ liệu mờ vẫn là bài toán đang được nhiều người quan tâm nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực: nghiên cứu thị trường, nhận dạng, xử lý ảnh, tìm kiếm thông tin… Các thuật toán phân cụm mờ rất đa dạng như: C- means mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic C- Means (FPCM), -Insensitive Fuzzy C-means ( FCM.
- Số cụm là một tham số quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định kết quả phân cụm nào là tốt nhất hay số lượng cụm tối ưu là gì?.
- Luận văn này trình bày khảo cứu của tác giả về tiếp cận phân cụm mờ.
- Đặc biệt, đi sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm chỉ số.
- Trên cơ sở đó, đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén (compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29].
- Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có..
- Chương 1: Tổng quan về phân cụm dữ liệu.
- trình bày một số phương pháp PCDL và giải thuật điển hình của mỗi phương pháp phân cụm..
- Chương 2: Phân cụm dữ liệu mờ.
- phân tích kỹ thuật phân cụm rõ và phân cụm mờ, trình bày hai thuật toán phân cụm mờ điển hình: C-means mờ (viết tắt là FCM) và mở rộng của nó là thuật toán Gustafson-Kessel (viết tắt là GK)..
- Chương 3: Số cụm và chỉ số đánh giá.
- Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm trong bài toán phân cụm.
- Phân tích một số hàm chỉ số thông dụng để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm mờ, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét..
- Chương 4: Một chỉ số đánh giá số cụm mới cho phân cụm mờ.
- Chương 4, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp độ nén và độ chồng nhau của các cụm.
- Tiến hành thực nghiệm trên nhiều bộ dữ liệu nhân tạo và bộ dữ liệu thực đã cho thấy ưu điểm nổi trội của chỉ số mới so với các chỉ số điển hình hiện có trong quá trình tìm kiếm số cụm tối ưu cho một tập dữ liệu..
- [2] Hoàng Xuân Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại học Quốc gia Hà Nội..
- [3] Hoàng Xuân Huấn, Nguyễn Trung Thông (2005), Phân cụm nửa giám sát với mô hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin..
- [4] Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ khi số cụm không xác định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ..
- [5] Hà Quang Thụy và cộng sự (2009), Giáo trình khai phá dữ liệu web, Nhà xuất bản Giáo dục Việt Nam, Hà Nội..
- [6] Hoàng Hải Xanh (2005), Về các kỹ thuật phân cụm dữ liệu trong Data mining, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ..
- [7] Trần Thị Yến (2009), Phân cụm dữ liệu trừ mờ và ứng dụng, Đại học Công nghệ thông tin và truyền thông - Đại học Thái Nguyên, luận văn thạc sĩ..
- [8] Chen Duo, Li Xue, Cui Du-Wu (2007), An adaptive cluster validity index for the Fuzzy C-means, IJCSNS International Journal of Computer Science and Network Security, Vol.7 No.2, pp.
- Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp.
- [15] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia..
- [16] K.L.Wu, M.S.Yang (2005), A cluster validity index for fuzzy clustering, Pattern Recognition Lett.
- Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition.
- Reiber (1998), A new cluster validity index for the fuzzy c-mean, Pattern Recognition Letters 19, pp.
- Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland..
- Kwon (1998), Cluster validity index for fuzzy clustering, Electron.
- Qu (2011), A cluster validity index for fuzzy c-means clustering, Interational Conference on System Science, Engineering Design and Manufacturing Informatization, 2011 Int.
- (vol.2), pp.
- Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol.