« Home « Kết quả tìm kiếm

XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT TỪ DỮ LIỆU RỜI RẠC


Tóm tắt Xem thử

- XÂY DỰNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT TỪ DỮ LIỆU RỜI RẠC.
- Bài báo trình bày một số khái niệm, kết quả lý thuyết và thuật toán để xây dựng chùm các hàm mật độ xác suất.
- Với các chương trình được viết bằng Matlab, chúng tôi giải bài toán với máy tính để xây dựng chùm các hàm mật độ xác suất.
- Kỹ thuật này có thể minh giải các dữ liệu rời rạc thực tế về điểm rèn luyện và điểm học tập của sinh viên Khoa Khoa học Tự Nhiên, Trường Đại học Cần Thơ..
- Từ khóa: Chùm, độ rộng chùm, phương pháp thứ bậc, phương pháp không thứ bậc 1 GIỚI THIỆU.
- Khi làm việc với tập dữ liệu lớn, đến từ nhiều nguồn khác nhau, người ta có nhu cầu phân chia chúng thành những nhóm với những phần tử “gần” nhau theo một dấu hiệu được chọn lựa, từ đó bài toán phân tích chùm ra đời.
- Phân tích chùm là việc nhóm các phần tử trong tập hợp đã cho thành các chùm sao cho các phần tử trong cùng chùm tương tự nhau theo những dấu hiệu được chọn lựa.
- Khi chùm được xây dựng, những phần tử trong cùng một chùm sẽ có sự tương tự nhiều hơn so với những phần tử của chùm khác.
- Có rất nhiều ứng dụng cụ thể trong những lĩnh vực khác nhau của bài toán phân tích chùm: y học, sinh học, kinh tế, kỹ thuật, xã hội,…và trong bất kỳ lĩnh vực nào nơi việc nhóm những phần tử lại với nhau được đòi hỏi.
- Fukunaga (1990), Webb (2002) đã tổng kết những phương pháp liên quan đến phân tích chùm.
- Do đó, trong một số trường hợp nó tạo ra sự nghịch lý: phần tử đúng lý phải được xếp vào chùm này nhưng lại được xếp vào chùm kia.
- Năm 2010 nhóm tác giả Võ Văn Tài, Phạm Gia Thụ đã đưa ra khái niệm độ rộng chùm làm tiêu chuẩn phân tíchchùm các hàm mật độ xác suất.
- Độ rộng chùm được định nghĩa qua tích phân hàm cực đại của các hàm mật độ xác suất, vì vậy khi đánh giá sự tương tự của các phần tử, yếu tố phương sai đã được xem xét.
- Tuy nhiên, trong việc giải quyết bài toán chùm các hàm mật độ xác suất, vấn đề ước lượng hàm mật độ xác suất từ số liệu rời rạc và việc tính độ.
- rộng chùm vẫn còn gặp nhiều khó khăn.
- Trong bài viết này chúng tôi có bổ sung kết quả lý thuyết liên quan đến độ rộng chùm và vấn đề tính toán qua các chương trình được viết trên phần mềm Matlab.
- Một ví dụ với số liệu thực về điểm rèn luyện và điểm học tập của sinh viên Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ được đưa ra để kiểm chứng các thuật toán, các chương trình đã viết và cũng để minh họa cho các ứng dụng của bài toán phân tich chùm..
- 2 SỰ TƯƠNG TỰ VÀ ĐỘ RỘNG CHÙM CÁC HÀM MẬT ĐỘ XÁC SUẤT 2.1 Sự tương tự của các hàm mật độ xác suất.
- Tiêu chuẩn đánh giá sự tương tự của hai phần tử rời rạc là khoảng cách truyền thống.
- Người ta cũng có nhiều định nghĩa khác nhau về khoảng cách của hai chùm rời rạc, tuy nhiên việc chọn khoảng cách nào là tối ưu để đánh giá sự tương tự của các phần tử rời rạc là câu hỏi đã được nhiều nhà toán học quan tâm, nhưng hiện còn bỏ ngõ.
- Trong trường hợp 2 hàm mật độ xác suất, sự tương tự của chúng thông thường cũng được đánh giá qua khái niệm khoảng cách như: Khoảng cách Chernoff, khoảng cách Bhattacharyya, khoảng cách Divergence,…Khi có nhiều hơn hai hàm mật độ xác suất, nghiên cứu về tính tương tự của nó chưa được các nhà toán học quan tâm nhiều.
- nếu với mọi phần tử a 1 , a 2.
- Định nghĩa 2: Cho k hàm mật độ xác suất f 1 , f 2.
- 2.2 Độ rộng chùm a) Định nghĩa.
- Định nghĩa 3: Cho k hàm mật độ xác suất trên R n.
- k ≥ 2 , độ rộng của chùm { f 1 , f 2.
- f m ) là các hàm mật độ xác suất, chúng ta định nghĩa độ rộng của chùm { g.
- và độ rộng của chùm.
- b) Định lý về độ rộng chùm.
- f k , f k + 1 là hàm mật độ xác suất của k + 1 tổng thể.
- Chúng ta có các kết quả sau về độ rộng của chùm:.
- là tổng độ rộng của hai chùm trước khi ghép..
- Độ rộng chùm phản ánh sự gần nhau của những phần tử trong chùm, trong khi khoảng cách ngoài phản ánh sự xa nhau giữa hai chùm.
- w f f f f + f là hằng số, nên độ rộng chùm và khoảng cách ngoài biến thiên theo hướng trái ngược nhau.
- Khi ghép hai chùm thành một chùm, chúng ta cực tiểu tổng độ rộng vì vậy cũng có nghĩa cực đại khoảng cách giữa hai chùm..
- ii) Độ rộng chùm có mối quan hệ với các khái niệm được trình bày bởi (1), (2) và (3)..
- 3 PHƯƠNG PHÁP XÂY DỰNG CHÙM 3.1 Phương pháp thứ bậc.
- Có n phần tử với biến quan sát đã biết.
- Chúng ta chia những phần tử này thành những chùm với số lượng giảm dần theo từng bước.
- Tại mỗi bước ta ghép 2 chùm thành 1 chùm mới có độ rộng chùm nhỏ nhất so với việc ghép 2 chùm khác.
- Ở bước cuối cùng, tất cả các phần tử sẽ được kết hợp thành một chùm.
- Tính từng đôi độ rộng chùm của hai phần tử.
- Thành lập ma trận đối xứng D của các độ rộng chùm.
- Bước 2: Trong ma trận D, tìm độ rộng chùm nhỏ nhất của hai chùm khác nhau, tức hai chùm có sự tương tự nhiều nhất..
- Tính toán lại ma trận độ rộng chùm mới theo hai bước:.
- 3.2 Phương pháp không thứ bậc a) Bài toán (Bài toán 2).
- Có n phần tử với biến quan sát đã biết cần chia những phần tử này thành k chùm với k cho trước, sao cho một phần tử trong chùm có độ rộng đến chùm nó đang thuộc nhỏ hơn độ rộng đến các chùm khác..
- Bước 1: Chia n phần tử thành k chùm một cách ngẫu nhiên (số lượng phần tử trong mỗi chùm là tùy ý)..
- Bước 2: Tính độ rộng chùm từ mỗi phần tử đến tất cả các chùm.
- Nếu độ rộng chùm từ một phần tử đến chùm nó đang thuộc là nhỏ nhất thì ta giữ phần tử đó trong chùm ban đầu.
- Nếu tồn tại một chùm khác mà độ rộng chùm từ phần tử đang xét đến chùm đo là nhỏ nhất thì ta gán phần tử đang xét vào chùm này, bỏ phần tử trong chùm nó đang thuộc.
- Nếu phần tử được di chuyển đến chùm khác thì cần phải tính lại giá trị trọng tâm của hai chùm mới có sự thay đổi..
- Bước 3: Quay lại bước 2 và dừng lại khi ta có k chùm, sao cho một phần tử bất kỳ trong chùm có khoảng cách đến chùm nó đang thuộc nhỏ hơn khoảng cách đến các chùm khác..
- 4.1 Vấn đề ước lượng hàm mật độ xác suất từ dữ liệu rời rạc.
- Trong thực tế, hầu như mọi dữ liệu có nhu cầu phân tích chùm là dữ liệu rời rạc, do đó để phân tích chùm các hàm mật độ xác suất có ý nghĩa thật sự, việc đầu tiên phải làm là ước lượng hàm mật độ xác suất từ dữ liệu rời rạc.
- Có nhiều phương pháp tham số cũng như phi tham số để ước lượng hàm mật độ xác suất.
- 2 x N } là các dữ liệu rời rạc n chiều cần ước hàm mật độ xác suất.
- Hàm mật độ xác suất cần ước lượng theo phương pháp hạt nhân có dạng.
- Khi chọn tham số trơn nhỏ thì hàm mật độ ước lượng sẽ không được trơn, nhưng khi tham số trơn lớn sẽ làm giảm tính chính xác của ước lượng.
- Sử dụng phần mềm Matlab, chúng tôi đã viết các chương trình ước lượng hàm mật độ xác suất như sau:.
- a) Chương trình 1: Ước lượng hàm mật độ xác suất một chiều function fa=uocluong(dla);.
- Khi cần ước lượng hàm mật độ xác suất của một tổng thể nào đó ta chỉ cần sử dụng lệnh:.
- b) Chương trình 2: Ước lượng hàm mật độ xác suất hai chiều..
- uocluong2([chiều thứ nhất],[chiều thứ hai]) 4.2 Tính độ rộng chùm.
- Khi có được các hàm mật độ xác suất, để thực hiện bài toán phân tích chùm vấn đề quan trọng là phải tính được độ rộng chùm.
- Giải quyết vấn đề này là một việc không dễ dàng, bởi vì chúng ta phải xác định hàm cực đại của các hàm mật độ xác suất và phải tính được tích phân trên R n của hàm cực đại này.
- Chương trình tìm biểu thức giải tích cụ thể cho hàm cực đại của các hàm mật độ xác suất một chiều để từ đó tính độ rộng chùm đã được viết, tuy nhiên trường hợp nhiều chiều vẫn chưa được giải quyết.
- Trong bài viết này, chúng tôi tính độ rộng chùm dựa trên việc tính gần đúng tích phân hàm cực đại bằng phương pháp Moncte- Carlo..
- Sử dụng cách tính gần đúng hàm cực đại của các hàm mật độ xác suất bằng phương pháp Moncte-Carlo, chúng tôi đã viết các chương trình tính độ rộng chùm các hàm mật độ cho trường hợp một chiều, cũng như nhiều chiều.
- Chương trình 3: Tính độ rộng chùm syms i x1 x2 y1 y2 gtmax;.
- Trong phần này, chúng tôi sẽ tiến hành phân tích chùm điểm học tập, chùm điểm rèn luyện cũng như chùm tổng hợp điểm học tập và điểm rèn luyện ở học kỳ I năm học của sinh viên 15 lớp thuộc Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ.
- hai điểm số của sinh viên trong Khoa để có những nhận xét về tình hình học tập và rèn luyện của sinh viên cũng như mức độ đánh giá các ngành học của Thầy Cô trong Khoa.
- Sau khi có số liệu được cung cấp bởi Phòng Công tác sinh viên, chúng tôi chọn ngẫu nhiên mỗi lớp 20 sinh viên, lấy điểm rèn luyện và điểm học tập đưa vào tập dữ liệu (số liệu cụ thể được cho trong phần phụ lục) và chuẩn hóa điểm học tập về thang điểm 100 như điểm rèn luyện..
- 2 3 f 15 lần lượt là các hàm mật độ xác suất được ước lượng từ điểm trung bình học tập đã được tổng hợp ở phần trên của sinh viên các lớp Hóa K33, Toán K33, Sinh K33.
- Sử dụng chương trình 1 và chương trình 2, ta ước lượng được 15 hàm mật độ xác suất cho điểm học tập và rèn luyện mà chúng được minh họa bởi các đồ thị (vẽ trong Matlab) như hình 1 và hình 2 sau:.
- a) Kết quả của phương pháp thứ bậc.
- Hình 1: Đồ thị 15 hàm mật độ xác suất điểm rèn luyện.
- Hình 2: Đồ thị 15 hàm mật độ xác suất điểm học tập.
- 0.36 0.25.
- Hình 3: Cây phân loại điểm rèn luyện Hình 4: Cây phân loại điểm học tập.
- b) Kết quả của phương pháp không thứ bậc.
- Chia kết quả học tập cũng như điểm rèn luyện của các lớp thành 4 chùm một cách tùy ý: Chùm 1={Hóa 33, Toán 33, Sinh 33}, chùm 2 = {Hóa 34, Toán 34, Sinh 34}, n chùm 3 = {Hóa 35, Toán 35, Sinh 35}, chùm 4 = {Hóa 36, Hóa Dược 36, Toán 36, Sinh 36, Tin1 36, Tin2 36}..
- i) Qua 13 vòng lặp, ta có kết quả 4 chùm về điểm học tập như sau:.
- ii) Qua 10 vòng lặp, ta có kết quả 4 Chùm điểm rèn luyện như sau:.
- iii) Qua 12 vòng lặp ta có kết quả 4 chùm kết hợp điểm học tập và rèn luyện như sau:.
- i) Hình 4 cho thấy kết quả điểm rèn luyện của sinh viên các lớp thuộc Khoa Khoa học Tự nhiên chia làm hai chùm rõ rệt.
- Kết quả phân tích của phương pháp không thứ bậc cũng gần giống với phương pháp thứ bậc, trong đó, hợp của chùm 1 và chùm 2 của phương pháp không thứ bậc gần giống với chùm A của phương pháp thứ bậc (có thêm lớp Hóa 36), và hợp của chùm 3 và chùm 4 thì gần giống chùm B của phương pháp thứ bậc (không có lớp Hóa 36).
- Một trường hợp đáng quan tâm khác là điểm rèn luyện của lớp Toán 36 được tách hẳn thành một.
- T 36 2.88.
- Hình 5: Cây phân loại điểm học tập và rèn luyện Hình 6: Tập các điểm học tập và rèn luyện trên mặt phẳng tọa độ.
- chùm riêng biệt, điều này cho thấy điểm rèn luyện của lớp Toán 36 có sự khác biệt rất lớn so với các lớp khác, nhìn vào đồ thị các hàm mật độ xác suất hình 1, chúng ta thấy điểm rèn luyện của lớp Toán 36 đạt trung bình vào khoảng 70 và có độ phân tán không cao, nghĩa là hầu như đều xấp xỉ 70 điểm, trong khi các lớp khác có số điểm trung bình khác và có độ phân tán cao hơn điểm rèn luyện của lớp Toán 36.
- Như vậy, điểm rèn luyện của các lớp Khoa Khoa học Tự nhiên phụ thuộc vào khóa học một cách rõ rệt, cụ thể các lớp khóa 36 có sự khác biệt với các lớp khóa cũ, trong các lớp khóa cũ thì khóa 35 lại khác với khóa 33 và 34..
- ii) Kết quả phân tích điểm học tập của phương pháp thứ bậc lại chỉ ra điểm trung bình của các lớp Hóa, Sinh các năm cuối (Hóa 33, Sinh 33, Hóa 34, Sinh 34) có sự khác biệt đối với các lớp còn lại.
- Kết quả phân tích đồng thời hai biến điểm học tập và rèn luyện lại là sự tổng hợp các kết quả đã có ở trên, các lớp Hóa, Sinh các khóa 33 và 34 được nhóm thành một chùm, trong chùm còn lại thì lớp Toán 36 lại có sự khác biệt so với các lớp khác..
- Tiêu chuẩn độ rộng chùm đã cải thiện việc đánh giá mức độ gần và xa của các phần tử trong xây dựng chùm, vì vậy kết quả phân tích chùm được hợp lý hơn.
- Với các chương trình đã viết cho việc tính độ rộng chùm, việc xây dựng chùm các hàm mật độ xác suất đã có một bước tiến bộ quan trọng.
- Chương trình ước lượng hàm mật độ xác suất từ dữ liệu rời rạc giúp ta có thể giải quyết được yêu cầu phân tích chùm từ số liệu quan sát thực tế..
- Bảng kết quả chọn mẫu điểm học tập và điểm rèn luyện của 20 sinh viên được chọn ngẫu nhiên từ các lớp của Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ.
- X: điểm học tâp..
- Y: điểm rèn luyện.