« Home « Kết quả tìm kiếm

Bài toán phân loại và ứng dụng trong y học


Tóm tắt Xem thử

- BÀI TOÁN PHÂN LOẠI VÀ ỨNG DỤNG TRONG Y HỌC Võ Văn Tài và Đổng Yến Nghi.
- Bài báo trình bày các phương pháp trong phân loại Fisher, logistic, SVM, Bayes và vấn đề tính toán của chúng.
- Bài báo cũng giải quyết vấn đề ứng dụng thực tế từ số liệu rời rạc của các phương pháp này bằng các chương trình được xây dựng trên phần mềm Matlab.
- Đó là chương trình ước lượng hàm mật độ xác suất, phân loại một phần tử và tính sai số Bayes..
- Một ứng dụng thực tế trong y học được trình bày chi tiết: Tìm mô hình thích hợp trong đánh giá bệnh cao huyết áp từ các biến.
- Kết quả thực hiện cho thấy phương pháp Bayes luôn cho mô hình tốt nhất.
- Áp dụng này không những minh họa cho những lý thuyết đã trình bày, kiểm tra sự hợp lý của các chương trình được thiết lập, mà còn cho thấy tiềm năng ứng dụng của vấn đề nghiên cứu..
- Bài toán phân loại và ứng dụng trong y học.
- Phân loại là việc gán một phần tử mới thích hợp nhất vào các tổng thể đã được biết trước dựa vào biến quan sát của nó.
- Hiện tại, ba phương pháp chính được đưa ra để giải quyết bài toán phân loại là: Fisher, logistic và Bayes.
- Mặc dù được đề xuất muộn nhất và chỉ phân loại cho hai tổng thể, nhưng phương pháp hồi qui logistic được sử dụng rất phổ.
- tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau.
- Phương pháp Bayes được xem có nhiều ưu điểm, có thể phân loại được cho hai hay nhiều hơn hai tổng thể..
- Phương pháp này cũng không bị ràng buộc bởi các giả thiết phân phối chuẩn và phương sai bằng nhau của các tổng thể.
- Các kết quả nghiên cứu mới trong những năm gần đây về bài toán phân loại chủ yếu.
- Bayes được gọi là sai số Bayes.
- Theo Pham-Gia et al (2006), sai số Bayes đã được chứng minh là xác suất sai lầm nhỏ nhất trong bài toán phân loại..
- Một số kết quả mới rất có ý nghĩa về phương pháp Bayes đã được trình bày trong những năm gần đây bởi Pham-Gia et al .
- Bài toán phân loại là một hướng phát triển quan trọng của thống kê nhiều chiều.
- Nó được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, đặc biệt trong y học.
- Cụ thể nó được ứng dụng theo hai hướng sau:.
- Một người có các chỉ số sinh hóa cụ thể, dựa vào các phương pháp phân loại, chúng ta cần kết luận người đó bị bệnh nào trong số k loại bệnh đã biết..
- Với những tiến bộ vượt bậc trong việc lưu trữ và xử lý dữ liệu, bài toán phân loại sẽ trở thành một công cụ quan trọng giúp các bác sĩ trong hỗ trợ chẩn đoán bệnh.
- Ở nước ta, bài toán phân loại chưa được quan tâm nhiều.
- Do sự hạn chế của phương pháp Fisher, sự phức tạp trong tính toán của phương pháp Bayes, nên các ứng dụng cụ thể chỉ sử dụng phương pháp hồi qui logistic, do đó chưa thể xác định một mô hình phân loại tối ưu trong các ứng dụng cụ thể này.
- Bài viết này phân tích các phương pháp phân loại, giải quyết vấn đề tính toán để từ đó có thể ứng dụng tìm kiếm mô hình tối ưu trong đánh giá một loại bệnh cụ thể của thực tế..
- Trong phần 2, các phương pháp phân loại được tổng kết.
- Phần 3 xem xét vấn đề tính toán của các phương pháp này..
- Phần này cũng thiết lập các chương trình tính toán để hỗ trợ áp dụng thực tế của phương pháp Bayes..
- Áp dụng thực tế được trình bày trong phần 4 để minh họa lý thuyết và tính ứng dụng của vấn đề nghiên cứu.
- 2 CÁC PHƯƠNG PHÁP PHÂN LOẠI 2.1 Phương pháp hồi qui logistic.
- Trong các mô hình hồi qui truyền thống, biến phụ thuộc và biến độc lập có thể nhận giá trị trên tập số thực.
- Trong thực tế có rất nhiều trường hợp, một đại lượng chỉ nhận hai giá trị 0 và 1, nhưng nó lại phụ thuộc vào các biến độc lập khác nhận giá trị trên tập số thực.
- Người ta cần đưa ra một phương trình mô tả mối quan hệ giữa xác suất p để một biến cố A xảy ra với giá trị của các biến độc lập x 1 , x 2.
- Phương trình dạng tuyến tính biểu diễn xác suất p qua một tổ hợp tuyến tính của các biến độc lập thường được nghĩ đến trước tiên.
- Tuy nhiên, một phương trình tuyến tính như vậy là không hợp lý, vì p chỉ nhận giá trị giới hạn trong [0,1], trong khi đó tổ hợp tuyến tính của các biến độc lập có thể nhận giá trị bất kỳ trên đường thẳng thực.
- và các biến độc lập xi dưới dạng tuyến tính nên người ta thiết lập chúng dưới dạng:.
- Sử dụng phương pháp hợp lý cực đại, các hệ số  i trong mô hình (2.1) được xác định bởi hệ phương trình sau:.
- Khi tìm được các hệ số của phương trình hồi qui, ta có xác suất thành công của phần tử có biến quan sát x = (x 1 , x 2.
- 2.2 Phương pháp Fisher.
- Xét k tổng thể w 1 , w 2.
- k và ma trận hiệp phương sai của các tổng thể đều bằng nhau.
- 2.3 Phương pháp Bayes.
- Cho k tổng thể w 1 , w 2.
- w k có biến quan sát với hàm mật độ xác suất được xác định là f 1 (x), f 2 (x.
- f k (x) và xác suất tiên nghệm cho các tổng thể lần lượt là q 1 , q 2.
- Ta có nguyên tắc phân loại một phần tử mới với biến quan sát x 0 bằng phương pháp Bayes như sau:.
- q i là xác suất tiên nghiệm của tổng thể thứ i, g i (x.
- Xác suất sai lầm trong phân loại Bayes được gọi là sai số Bayes và được xác định bởi công thức:.
- 3.1 Trong phương pháp Fisher và hồi qui logistic.
- Đối với phương pháp Fisher, do thực tế không có véc tơ trung bình và ma trận hiệp phương sai của tổng thể, nên ta thay thế chúng bằng các ước lượng không chệch từ mẫu.
- Gọi S i là ma trận hiệp phương sai của tổng thể thứ i.
- Chúng ta có thể sử dụng các phần mềm thống kê R hoặc SPSS để thực hiện bài toán phân loại bằng phương pháp Fisher..
- để thực hiện..
- 3.2 Trong phương pháp Bayes.
- Trong thực tế dữ liệu có nhu cầu để thực hiện bài toán phân loại là dữ liệu rời rạc, do đó để bài toán phân loại bằng phương pháp Bayes có tính ứng dụng thực tế, việc đầu tiên phải làm là ước lượng hàm mật độ xác suất từ dữ liệu rời rạc.
- Có nhiều phương pháp tham số cũng như phi tham số để thực hiện việc này.
- Trong bài viết này, chúng tôi sử dụng phương pháp hàm hạt nhân, một phương pháp cho đến hiện tại có nhiều ưu điểm nhất.
- Hàm mật độ n chiều ước lượng bằng phương pháp này có dạng:.
- đã hỗ trợ việc ước lượng hàm mật độ xác suất 1 chiều, tuy nhiên trong trường hợp nhiều chiều chưa có sự hỗ trợ, chúng tôi đã viết chương trình thực hiện trong trường hợp này với hàm hạt nhân và tham số trơn được chọn ở trên.
- Khi có các hàm mật độ xác suất ước lượng, dựa vào (2.4) chúng tôi đã viết chương trình để phân loại một phần tử mới..
- Kết quả phân loại một phần tử mới bởi nguyên tắc (2.4) và sai số Bayes được tính bởi (2.6) đều phụ thuộc vào xác suất tiên nghiệm.
- Miller (2001) nhưng việc tìm một xác suất tiên nghiệm thích hợp cho từng trường hợp cụ thể cho đến nay vẫn là một bài toán chưa có lời giải cuối cùng.
- Thông thường có những phương pháp sau để xác định các xác suất tiên nghiệm:.
- Mặt dù về mặt lý thuyết, chúng ta chưa khẳng định việc chọn xác suất tiên nghiệm theo phương pháp nào là hợp lý, tuy nhiên các ứng dụng thực tế cho thấy việc chọn theo (b) thường cho kết quả tốt nhất..
- Chúng tôi sử dụng cách tính gần đúng hàm cực đại của các hàm mật độ xác suất bằng phương pháp Monte-Carlo, để từ đó tính sai số Bayes cho trường hợp k tổng thể n chiều.
- Tất cả các chương trình được đề cập trong phần này được sử dụng để giải quyết hiệu quả bài toán thực tế của phần 4..
- 4 ÁP DỤNG CỤ THỂ TRONG Y HỌC 4.1 Giới thiệu.
- Chúng tôi lấy một bộ số liệu thực tế để minh họa cho việc ứng dụng các mô hình phân loại trong đánh giá một loại bệnh.
- Cụ thể ứng dụng thực hiện phân loại bệnh cao huyết áp dựa vào số liệu thứ cấp thu được từ tổng kết của ngành y tế tỉnh Sóc Trăng từ tháng 12/2011 đến 12/2013.
- Các biến sinh hóa ban đầu được chọn để đưa vào mô hình phân loại theo ý kiến của chuyên gia y tế.
- Cụ thể các biến được khảo sát gồm:.
- Bảng 1: Các biến độc lập được khảo sát..
- 4.2 Phương pháp thực hiện.
- Với số liệu đã có, bài viết thực hiện phân tích xem các biến độc lập có tương quan với nhau không để tránh trường hợp đa cộng tuyến.
- Sau khi loại bỏ bớt biến để không còn đa cộng tuyến, bài viết xây dựng mô hình logistic, lựa chọn các biến.
- Với các biến đã lựa chọn tiến hành đánh giá khả năng mắc bệnh tăng huyết áp của bệnh nhân theo 3 phương pháp:.
- Mỗi phương pháp sẽ tiến hành đánh giá tính hợp lý giữa biến phụ thuộc với tất cả các biến độc lập để lựa chọn mô hình phù hợp nhất.
- Cuối cùng chúng ta sẽ cho những nhận xét về các phương pháp đã thực hiện để lựa chọn được phương pháp phù hợp nhất.
- Các tính toán trong phương pháp Fisher và logistic được thực hiện trên phần mềm SPSS.
- Những tính toán trong phương pháp Bayes bao gồm việc ước lượng hàm mật độ xác suất, phân loại phần tử mới, tính sai số Bayes đều dựa trên các chương trình đã viết trên Matlab với xác suất tiên nghiệm được chọn theo b).
- 4.3 Kết quả thực hiện.
- Từ số liệu, tính hệ số tương quan giữa các biến ta có kết quả:.
- Bảng 2 cho ta thấy hai biến TL và BMI có sự tương quan chặt chẽ với nhau, vì vậy trong thực hiện bài toán phân loại chúng ta bỏ 1 biến.
- Bảng 3 cho ta thấy chỉ có 2 biến HA và NT có ý nghĩa thống kê 5% khi đưa vào mô hình, các biến còn lại không có ý nghĩa ở mức này.
- Điều này cho thấy các biến không đóng vai trò quan trọng đối với khả năng mắc bệnh cao huyết áp, tuy nhiên theo ý kiến tham khảo từ chuyên gia, biến TU cũng có khả năng ảnh hưởng đến khả năng tăng huyết.
- Chính vì vậy, chúng tôi sử dụng 3 biến này để thực hiện bài toán phân loại..
- Thực hiện phương pháp Fisher, logistic, Bayes trong 3 trường hợp một biến, 3 trường hợp hai biến và 1 trường hợp ba biến để tìm mô hình có xác suất phân loại tốt nhất ta được bảng tổng hợp sau:.
- Bảng 4: Bảng tổng hợp khả năng phân loại đúng.
- của 3 phương pháp..
- Phương pháp 1 biến 2 biến 2 biến.
- Hồi qui logistic .
- Ma trận hiệp phương sai của hai nhóm gần xấp xỉ nhau nên kết quả khảo sát của các phương pháp không có sự khác biệt nhiều.
- Tuy nhiên, phương pháp hồi qui logistic và Bayes có ưu thế hơn..
- Trong đó, sử dụng phương pháp Bayes với 3 biến sẽ cho kết quả phân loại cao nhất..
- Trong từng trường hợp tối ưu, khả năng phân loại đúng rất cao, vì vậy chúng ta có thể sử dụng kết quả này cho thực tế.
- Các biến này cũng dùng để dự báo người bị tăng huyết áp với xác suất rất cao..
- Bài báo đã tổng kết các phương pháp phân loại và khảo sát vấn đề tính toán.
- Bài toán áp dụng trong y học từ số liệu thực tế được trình bày, minh chứng cho tiềm năng ứng dụng của bài toán phân loại trong lĩnh vực này cũng như.
- Nếu có đầy đủ số liệu tin cậy và công cụ tính toán đủ mạnh, bài toán phân loại sẽ trở thành một công cụ quan trọng giúp ngành y trong nghiên cứu chẩn đoán bệnh