« Home « Kết quả tìm kiếm

Phân loại bằng phương pháp Bayes và ứng dụng trong y học


Tóm tắt Xem thử

- PHÂN LOẠI BẰNG PHƯƠNG PHÁP BAYES VÀ ỨNG DỤNG TRONG Y HỌC Võ Văn Tài 1.
- Bài toán phân loại, hồi qui logistic, phương pháp Bayes, sai số Bayes.
- Bài viết này nghiên cứu bài toán phân loại bằng phương pháp Bayes, trong đó việc ước lượng hàm mật độ xác suất và tìm xác suất tiên nghiệm từ số liệu thực tế được xem xét.
- Nghiên cứu cũng giải quyết được những tính toán phức tạp của phương pháp này bởi sự xấp xỉ và chương trình Matlab được xây dựng.
- Từ những cải tiến trên, thuật toán phân loại bệnh bằng phương pháp Bayes được đề xuất.
- Phân loại bằng phương pháp Bayes và ứng dụng trong y học.
- Phân loại là việc gán một phần tử thích hợp nhất vào các tổng thể đã được biết trước dựa vào các biến quan sát.
- Bài toán phân loại đã và đang được áp dụng đa dạng trong các lĩnh vực nên hiện tại được rất nhiều nhà thống kê và công nghệ thông tin quan tâm (Cristianini and Shawe, 2000.
- hiện có bốn phương pháp chính để giải quyết bài toán phân loại: phương pháp Fisher, hồi qui logistic, SVM (super vector machine) và Bayes (Tai, 2017)..
- Phương pháp Fisher ra đời sớm nhất, có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau nên có nhiều hạn chế trong áp dụng thực tế (Tai, 2017).
- Hiện nay, phương pháp hồi qui logistic được sử dụng phổ biến, nhưng chỉ hiệu quả khi dữ liệu có sự tách rời tốt của các nhóm và biến phụ thuộc là nhị phân (Jan et al., 2010).
- Phương pháp SVM tận dụng sự phát triển của công nghệ thông tin, xây dựng mô hình dựa trên dữ liệu tập huấn luyện và tập kiểm tra nên đòi hỏi dữ liệu lớn (Cristianini and Shawe, 2000).
- Phương pháp Bayes được xem có nhiều ưu điểm, có thể phân loại được cho hai hay nhiều hơn hai tổng thể.
- Phương pháp này cũng không bị ràng buộc bởi các giả thiết phân phối chuẩn và phương sai bằng nhau của các tổng thể.
- Các kết quả nghiên cứu mới trong những năm gần đây về bài toán phân loại chủ yếu tập trung xung quanh phương pháp Bayes (Tai et al., 2018)..
- Trong áp dụng thực tế hiện nay, phương pháp Bayes được sử dụng khá hạn chế.
- Trong hạn chế này, vấn đề xác định xác suất tiên nghiệm, ước lượng hàm mật độ xác suất và sự tính toán phức tạp của phương pháp này là những nguyên nhân chính..
- Xác suất tiên nghiệm thường được xác định dựa vào kinh nghiệm, sự hiểu biết của người thực hiện, hoặc một tổng kết thống kê trước đó cho vấn đề mà ta cần phân loại.
- Một số đề xuất dựa vào thống kê cũng được xem xét và áp dụng như phân phối đều, tỉ lệ mẫu, phương pháp Laplace.
- Bên cạnh xác suất tiên nghiệm, khi thực hiện bài toán phân loại bằng phương pháp Bayes, chúng ta phải ước lượng hàm mật độ xác suất.
- Ngoài hai vấn đề trên, những phức tạp trong tính toán như tìm hàm cực đại, tính tích phân trong không gian nhiều chiều cũng là cản trở chính trong áp dụng thực tế của phương pháp này (Tai and Pham-Gia, 2010).
- Thao and Tai, 2017) nghiên cứu đề xuất thuật toán xác định xác suất tiên nghiệm phù hợp cho từng bộ dữ liệu và cho từng phần tử cần phân loại.
- Nghiên cứu này cũng đề nghị phương pháp ước lượng hàm mật độ xác suất từ số liệu rời rạc và áp dụng phương pháp Monte Carlo để giải quyết vấn đề tính toán trong thực tế của phương pháp Bayes..
- Hiện nay bài toán phân loại được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau.
- Trong y học, bài toán phân loại được ứng dụng theo hai hướng sau:.
- Một người có các chỉ số sinh hóa cụ thể, dựa vào các phương pháp phân loại, chúng ta cần kết luận người đó bị bệnh nào trong số k loại bệnh đã biết..
- Cả hai vấn đề này thực chất là việc giải quyết bài toán phân loại cho hai tổng thể và nhiều hơn hai tổng thể.
- Vì vậy nghiên cứu này sẽ áp dụng những cải tiến trong thực tế của phương pháp Bayes được đề cập ở trên vào lĩnh vực y học..
- Phần 2 trình bày phương pháp Bayes và thuật toán đề nghị trong phân loại bệnh.
- Phần 4 áp dụng thuật toán cho một số liệu thực tế.
- 2 PHƯƠNG PHÁP BAYES VÀ THUẬT TOÁN PHÂN LOẠI BỆNH.
- 2.1 Phương pháp Bayes.
- w k có biến quan sát với hàm mật độ xác suất n chiều f 1 (x), f 2 (x.
- f k (x) và xác suất tiên nghệm cho các tổng thể lần lượt là.
- Ta có nguyên tắc phân loại một phần tử với biến quan sát x 0 bằng phương pháp Bayes như sau:.
- Xác suất sai lầm trong phân loại Bayes được gọi là sai số Bayes và được xác định bởi công thức:.
- 2.2 Thuật toán phân loại bệnh 2.2.1 Bài toán.
- w k với những phương pháp hoặc phác đồ điều trị khác nhau.
- Trên mỗi loại bệnh w i , chúng ta có N i phần tử (n 1 + n 2.
- 2.2.2 Thuật toán.
- Trong áp dụng của nghiên cứu này, mức ý nghĩa 5%.
- Ước lượng hàm mật độ xác suất cho mỗi w i.
- Tìm xác suất tiên nghiệm cho các tổng thể..
- Tiến hành phân loại theo (1).
- Đánh giá hiệu quả của phương pháp thực hiện qua xác suất phân loại đúng..
- 3.1 Thuật toán tìm xác suất tiên nghiệm 3.1.1 Giới thiệu.
- Kết quả phân loại một phần tử mới bởi nguyên tắc (1) và sai số Bayes được tính bởi (2) đều phụ.
- thuộc vào xác suất tiên nghiệm.
- Mặc dù có nhiều tác giả đã nghiên cứu về vấn đề này như Inman and Bradley (1989), Miller et al.
- (2018), nhưng việc tìm một xác suất tiên nghiệm thích hợp cho từng trường hợp cụ thể cho đến nay vẫn là một bài toán chưa có lời giải cuối cùng..
- Thông thường có những phương pháp sau để xác định các xác suất tiên nghiệm:.
- Dựa vào bài toán phân tích chùm mờ, nghiên cứu này đề xuất thuật toán tìm xác suất tiên nghiệm..
- Trong không gian n chiều, cho N phần tử với tập dữ liệu.
- được gọi là ma trận phân vùng mờ với  ij là xác suất khi xếp phần tử thứ j vào chùm thứ i (w i.
- Trong phân tích chùm không mờ, ta có  ij  1 khi phần tử thứ j thuộc chùm thứ i và  ij  0 khi phần tử thứ j không thuộc chùm thứ i..
- Trong phân tích chùm không mờ, phần tử đại diện chùm được chọn là trọng tâm của chùm.
- Trong phân tích chùm mờ, phần tử đại diện của chùm thứ i được xác định bởi.
- 3.1.3 Thuật toán.
- Bước 1: Tìm phần tử đại diện của mỗi chùm .
- trong đó N cột đầu tiên là ma trận phân vùng không mờ của các phần tử trong tập dữ liệu khi xếp vào k tổng thể w w 1 , 2.
- (Cụ thể  ij  1 khi phần tử thứ j thuộc chùm thứ i và  ij  0 nếu phần tử thứ j không thuộc chùm thứ i).
- Cột cuối cùng (N+1) là xác suất ban đầu để x 0 xếp vào các chùm.
- w w w Có thể chọn xác suất này bằng nhau và bằng 1/k..
- Khi đó chúng ta sẽ có ma trận phân vùng có cột cuối cùng (cột thứ N+1) là xác suất tiên nghiệm khi xếp x 0 vào các tổng thể tương ứng..
- Nghiên cứu này chọn.
- Khi m = 1 phân tích chùm mờ trở thành không mờ, khi m tiến đến vô cùng, các xác suất của các phần tử thuộc vào các chùm bằng nhau và bằng 1/k.
- Mặc dù có rất nhiều tác giả nghiên cứu về vấn đề này, nhưng việc xác định m một cách cụ thể vẫn.
- thường được thực hiện bằng phương pháp chia lưới..
- Nghiên cứu này chọn m = 2 trong tất cả các ví dụ số..
- i) Trong thực tế dữ liệu có nhu cầu để thực hiện bài toán phân loại là dữ liệu rời rạc, do đó để bài toán phân loại bằng phương pháp Bayes có tính ứng dụng thực tế, việc đầu tiên phải làm là ước lượng hàm mật độ xác suất từ dữ liệu này.
- Có nhiều phương pháp tham số cũng như phi tham số để thực hiện việc này.
- Trong bài viết này, chúng tôi sử dụng phương pháp hàm hạt nhân, một phương pháp cho đến hiện tại có nhiều ưu điểm (Tai and Pham-Gia, 2010.
- Hàm mật độ n chiều ước lượng bằng phương pháp này có dạng:.
- Có nhiều nghiên cứu về việc chọn tham số trơn, nhưng kết luận cuối cùng là không có cách chọn tham số nào thực sự có ưu thế so với các cách khác..
- Trong nghiên cứu này, tham số trơn theo Thao and Tai (2017) được chọn:.
- Vì vậy nghiên cứu này, cách tính gần đúng hàm cực đại của các hàm mật độ xác suất bằng phương pháp Monte-Carlo (Jasra et al., 2005) được sử dụng, để từ đó tính sai số Bayes cho trường hợp k tổng thể n chiều.
- 4 ÁP DỤNG 4.1 Dữ liệu.
- Nghiên cứu này sử dụng số liệu thực thực tế được lấy tại Bệnh viện đa khoa Trung ương thành phố Cần Thơ trong năm 2017.
- Mục đích của nghiên cứu này là xác định các biến có ý nghĩa thống kê ảnh hưởng đến việc tử vong hoặc khỏi bệnh, từ đó tìm mô hình phân loại tối ưu cho 2 nhóm này.
- Do đó nghiên cứu sử dụng 4 biến này để tìm mô hình tối ưu cho bài toán phân loại..
- Thực hiện việc ước lượng hàm mật độ xác suất, tìm xác suất tiên nghiệm trong những trường.
- hợp khác nhau, tiến hành phân loại cho từng trường hợp 1 biến, 2 biến, 3 biến và 4 biến.
- Trong mỗi trường hợp, phương pháp Bayes với xác suất tiên nghiệm đều (BayesU), dựa vào tập mẫu (BayesT), phương pháp Laplace (BayesL) và thuật toán đề nghị (BayesC) lần lượt được xem xét.
- Bảng 3: Xác xuất phân loại đúng.
- các trường hợp của phương pháp Bayes.
- Bảng 3 cho thấy BayesC cho kết quả phân loại đúng rất ổn định và cao nhất (91.
- Thực hiện phương pháp phân loại logistic, Fisher, SVM với từng trường hợp của biến, lựa chọn trường hợp có xác suất phân loại đúng cao nhất của mỗi phương pháp, sau đó so sánh với trường hợp tốt nhất của phương pháp BayesC (Bảng 3), ta có Bảng 4..
- Bảng 4: Xác suất phân loại tối ưu của 4 pháp Phương pháp 1 biến 2 biến 3 biến 4.
- Bayes Bảng 4 cho ta thấy xác suất phân loại đúng của các phương pháp theo thứ tự tăng dần là Fisher (dưới 75.
- Phương pháp BayesC cho kết quả rất tốt và ổn định..
- Sử dụng mô hình tối ưu của mỗi phương pháp được thiết lập từ tập huấn luyện, thực hiện phân loại cho 52 phần tử của tập kiểm tra, ta có kết quả sau:.
- Bảng phân loại từng phương pháp tối ưu trên tập kiểm tra.
- Phương pháp Số phần tử phân loại đúng.
- Kết quả phân loại trong Bảng 5 một lần nữa cho thấy phương pháp BayesC cho kết quả tốt, xác suất phân loại đúng đạt kết quả cao nhất..
- Bài báo đã nghiên cứu phương pháp phân loại Bayes với những cải tiến và đề xuất để áp dụng được cho dữ liệu rời rạc của thực tế.
- Đó là vấn đề xác định xác suất tiên nghiệm, ước lượng hàm mật độ xác suất và tính sai số Bayes.
- Nghiên cứu đã xây dựng một chương trình trên phần mềm Matlab để thực hiện hiệu quả cho số liệu thực.
- Từ những cải tiến này, nghiên cứu đã đề xuất được thuật toán phân loại bệnh trong y học.
- Nếu có số liệu đủ lớn và tin cậy, bài toán phân loại có thể trở thành một công cụ quan trọng hỗ trợ ngành y trong nghiên cứu chẩn đoán bệnh..
- Chúng tôi sẽ tiếp tục nghiên cứu đề xuất các phương pháp để chẩn đoán một số bệnh khác trong thời gian sắp tới dựa vào các số liệu thực tế ở Việt Nam.