« Home « Kết quả tìm kiếm

Kiểm thử giải thuật AI trong nhận diện bệnh tôm qua hình ảnh


Tóm tắt Xem thử

- KIỂM THỬ GIẢI THUẬT AI TRONG NHẬN DIỆN BỆNH TƠM QUA HÌNH ẢNH Quách Luyl Đa 1 , Phan Trọng Nghĩa 2 , Trần Thanh Hùng 2 và Nguyễn Chí Ngơn 2*.
- Trong nghiên cứu này, các giải thuật trí tuệ nhân tạo được sử dụng kết hợp với các đặc trưng SURF, phân cụm dữ liệu với K-mean trên bộ dữ liệu bệnh tơm 6 lớp.
- Nhằm tìm kiếm giải thuật thích hợp nhất trong việc phân loại bệnh tơm qua hình ảnh, nghiên cứu đã tiến hành kiểm thử trên 4 giải thuật trí tuệ nhân tạo, gồm: giải thuật hồi qui logic, Nạve Bayes, K láng giềng gần nhất và rừng ngẫu nhiên.
- Tiêu chí đánh giá độ chính xác của các giải thuật này gồm precision, recall và F 1 .
- Kết quả thử nghiệm khi áp dụng trên các tập đặc trưng cho thấy đạt tỷ lệ thấp, độ chính xác cao nhất là giải thuật rừng ngẫu nhiên với tiêu chí đánh giá recall là 47,7%.
- Nghiên cứu tiếp tục tiến hành kết hợp ngẫu nhiên của 4 cụm được phân loại bởi giải thuật K-mean, kết quả thu được với độ chính xác cao nhất theo tiêu chí recall cho giải thuật rừng ngẫu nhiên là 85,9%..
- dữ liệu khác nhau (Roell et al., 2020).
- Trong khi đĩ, DL là một nhánh cụ thể của ML với việc sử dụng các giá trị dữ liệu phân cấp, trong đĩ cĩ việc chuyển đổi thơng tin giữa các bước khác nhau thành các biễu diễn phức tạp hơn của dữ liệu (Goodfellow et al., 2016).
- Phân loại ảnh cĩ nhiều cách tiếp cận khác nhau bằng cách sử dụng các giải thuật của máy học, mà phổ biến là mạng nơ-ron nhân tạo, hệ chuyên gia và logic mờ.
- Quá trình tiền xử lý ảnh bao gồm các thao tác: lựa chọn mẫu, tiền xử lý hình ảnh, trích xuất đặc trưng, lựa chọn giải thuật, xử lý sau phân loại và đánh giá độ chính xác của giải thuật.
- Trong đĩ, quá trình lựa chọn mẫu và tiền xử lý cĩ vai trị quan trọng, ảnh hưởng đến độ chính xác của giải thuật phân loại..
- Bệnh đốm trắng (Durand et al., 1997) Áp dụng kỹ thuật phân loại hình ảnh dùng AI đã được nhiều nghiên cứu quan tâm như: ứng dụng giải thuật ImageNet cho việc phân loại cây thuốc nam (Duong-Trung et al., 2019.
- (2019) sử dụng giải thuật Niblack để phát hiện, xác định và loại bỏ tơm bị bệnh vàng đầu YHV.
- Vì vậy, nghiên cứu được thực hiện nhằm đánh giá các giải thuật AI trong việc phân loại hình ảnh bệnh tơm như Hình 2.
- Việc phân loại hình ảnh sử dụng một hàm y = f(x) phân biệt để ánh xạ từ dữ liệu đầu vào thành lớp đích.
- Với việc sử dụng giải thuật trích xuất đặc trưng cục bộ SURF (Bay et al., 2006) sinh ra vector đầu vào cĩ dạng <x 1 , x 2.
- và y là tập hữu hạn các nhãn dữ liệu <y 1 , y 2 ,…y c >.
- để tạo ra được giải thuật phân loại gần đúng f’ (Hastie et al., 2009).
- Trong giai đoạn tiền xử lý dữ liệu, giải thuật K-Means được áp dụng (Likas et al., 2003) để sửa chữa, biến đổi hoặc tập hợp con để lựa chọn các đặc trưng phù hợp với dự định phân loại.
- Các giải thuật AI được sử dụng là hồi quy tuyến tính đa thức, K láng giềng gần nhất, rừng ngẫu nhiên và Nạve Bayes.
- Tập dữ liệu ảnh.
- Giải thuật AI Tiền xử lý dữ liệu.
- Mơ hình Tiền xử lý dữ liệu.
- Các giải thuật AI được kiểm thử trong nghiên cứu này được đánh giá bằng các chỉ tiêu Precision, Recall và F1.
- Tương tự, giải thuật K-mean được sử dụng để thực hiện việc chia bộ dữ liệu đã lấy đặc trưng SURF ra làm 4 cụm và kết hợp ngẫu nhiên trong 6 tập bệnh tơm, tạo ra 4.096 lần kiểm thử để đánh giá được các phần dữ liệu quan trọng trong việc nhận diện đã được phát hiện hay chưa..
- TIỀN XỬ LÝ DỮ LIỆU 2.1.
- Lựa chọn dữ liệu ảnh tơm.
- Dữ liệu tơm bệnh được nghiên cứu sưu tầm thơng qua website của Nguyễn Chí Ngơn và ctv..
- Dữ liệu được thu thập từ người nơng dân nuơi tơm, bị ảnh hưởng bởi nhiều yếu tố như:.
- Dữ liệu ảnh bệnh tơm thu về gồm 5 tập ảnh tơm bệnh ứng với 5 loại bệnh và 1 tập ảnh tơm khỏe mạnh.
- Sau khi loại bỏ nền ảnh, tập dữ liệu hình ảnh được được mơ tả như Bảng 1..
- Đặc trưng cục bộ SURF.
- CÁC GIẢI THUẬT AI ĐƯỢC SỬ DỤNG ĐỂ PHÂN LOẠI.
- Giải thuật phân cụm K-Means.
- MacQueen (1967) đã đề xuất giải thuật phân cụm K-means.
- Đây là một giải thuật học khơng giám sát được sử dụng để phân loại tập dữ liệu thành K nhĩm.
- Giải thuật này tiến hành bằng cách chọn K trung tâm cụm ban đầu và sau đĩ tinh chỉnh lặp đi lặp lại sao cho:.
- Giải thuật sẽ dừng khi khơng cĩ sự thay đổi nào trong việc gán các thể hiện cho các cụm.
- Trong nghiên cứu này, K-means được sử dụng để chọn 4 cụm ngẫu nhiên từ từng tập dữ liệu bệnh trên tơm để tiến hành đánh giá từng cụm với nhau, nhằm đánh giá giải thuật cũng như độ khả thi của nghiên cứu với việc đề xuất giải thuật phù hợp với dữ liệu hiện tại.
- K-means được áp dụng vào việc phân chia đặc trưng SURF làm 4 cụm khác nhau, với số lượng được thể hiện ở Bảng 2, để tạo ra bộ dữ liệu kết hợp..
- Giải thuật hồi quy tuyến tính đa thức.
- Đối với bài tốn nhận dạng mẫu nhiều lớp thì giải thuật được dùng là hồi quy đa thức (multinomial logistic regression - MLR) được giới thiệu bởi McCullagh et al.
- Một ước lượng hậu kỳ về xác suất một mẫu thuộc về mỗi lớp trong c lớp rời rạc là kết quả đầu ra của giải thuật MLR.
- Giải thuật MLR sử dụng xác suất mang lại nhiều lợi thế thực tế như đặt ra ngưỡng loại bỏ, điều chỉnh các tần số tương đối khơng bằng nhau trong tập huấn luyện và trong hoạt động, hoặc áp dụng để dự đốn nhằm giảm thiểu rủi ro mong đợi (Cawley et al., 2007)..
- Giải thuật Nạve Bayes.
- Trong AI, giải thuật Nạve Bayes được xem là một giải thuật phân loại sử dụng giải thuật xác suất Bayes trong cơng thức (3) hoạt động dựa trên các giả định độc lập, điều này cĩ nghĩa là xác suất của một thuộc tính khơng ảnh hưởng đến xác xuất của thuộc tính kia (Al-Sharafat, 2009).
- P X : xác suất tiền nhiệm của đặc trưng X Việc sử dụng giải thuật nhằm đánh giá 2 giả thiết đặt ra:.
- Các đặc trưng SURF đưa vào giải thuật là độc lập với nhau.
- Các đặc trưng đưa vào giải thuật dự đốn bệnh tơm cĩ ảnh hưởng ngang nhau đối với đầu ra của mục tiêu..
- Giải thuật K láng giềng.
- Giải thuật K láng giềng (K Nearest Neighbors – KNN) khơng cĩ quá trình học, khi dự đốn nhãn của phần tử dữ liệu mới đến.
- Giải thuật KNN đi tìm k láng giềng của nĩ từ tập dữ liệu học, rồi sau đĩ thực hiện phân lớp phần tử mới đến.
- Kết quả của giải thuật cịn phụ thuộc vào việc chọn độ đo khoảng cách (Goldberger, 2004).
- Trong nghiên cứu này, dữ liệu được sinh ra là các vector đặc trưng SURF.
- Giải thuật Random Forest.
- Giải thuật rừng ngẫu nhiên (Random forest - RF) tạo ra một tập hợp các cây quyết định khơng cắt nhánh, mỗi cây được xây dựng trên tập mẫu.
- Việc khơng cắt nhánh của giải thuật RF nhằm giữ cho thành phần lỗi bias thấp và dùng tính ngẫu nhiên để điều khiển tính tương quan giữa các cây..
- Giải thuật RF học nhanh, giảm được lỗi tốt và cĩ độ chính xác cao, đáp ứng được yêu cầu thực tiễn trong vấn đề phân loại, hồi qui và phát hiện những phần tử đặc biệt (Breiman, 2001).
- Trong giải thuật RF (Hình 5) cĩ các tham số sau:.
- Tập dữ liệu học S cĩ m phần tử và n thuộc tính, giải thuật RF xây dựng T cây quyết định một cách độc lập nhau..
- Giải thuật cây quyết định thứ t được xây dựng trên tập ngẫu nhiên Bootstrap thứ t (lấy mẫu m phần tử cĩ hồn lại từ tập học S)..
- Trong giải thuật này, thuộc tính phân hoạch tốt nhất được lựa chọn theo cơng thức entropy và độ lợi thơng tin.
- Giả sử 𝑝 𝑖 là xác suất mà phần tử trong tập dữ liệu S thuộc lớp 𝐶 𝑖 (i=1,k) thì độ đo hỗn loạn thơng tin trước khi phân hoạch được tính theo (9)..
- Với việc sử dụng thuộc tính A phân hoạch dữ liệu D thành v thành phần, thì độ đo hỗn loạn sau khi phân hoạch được tính theo (10).
- Sau khi tính tốn độ đơ hỗn loại của thuộc tính và tập dữ liệu S, độ lợi thơng tin khi lựa chọn thuộc tính A phân hoạch dữ liệu D thành v thành phần theo (11)..
- Kết thúc quá trình xây dựng T giải thuật cơ sở, chiến lược bình chọn số đơng trong {𝑦̂ 1 (𝑥), 𝑦̂ 2 (𝑥.
- Giải thuật rừng ngẫu nhiên RF 4.
- Để đánh giá độ chính xác phân loại, giải thuật phát hiện bất thường (Anomaly detection – AD) (Powers, 2011) được sử dụng.
- AD hoạt động như giải thuật nhận dạng mẫu và phân loại nhị phân.
- Đối với giải thuật này, các tiêu chí Recall, Precision và F 1 thường được sử dụng để đánh giá hiệu quả của giải thuật học mà phân lớp dữ liệu nhị phân khơng cân bằng, chúng được định nghĩa trong và (15)..
- TP: Tổng số phần tử lớp dương được giải thuật dự đốn là lớp dương..
- FN: Tổng số phần tử lớp dương được giải thuật dự đốn là lớp âm (Biểu thị âm tính giả)..
- TN: Tổng số phần tử lớp âm được giải thuật dự đốn là lớp âm..
- FP: Tổng số phần tử lớp âm được giải thuật dự đĩn là lớp dương (Biểu thị dương tính giả)..
- Dữ liệu được mơ tả tại mục 2.1 với 644 ảnh được chia làm 6 lớp, sau khi thực hiện xử lý với đặc trưng SURF, tiến hành xử lý làm 2 bộ dữ liệu riêng biệt được mơ tả trong Bảng 2, với mơ tả như sau:.
- Bộ dữ liệu 1: Bộ dữ liệu với 14.530 vector đặc trưng SURF..
- Bộ dữ liệu 2: Bộ dữ liệu được sử dụng K- mean để phân ra làm 4 cụm với tổng số lượng dữ liệu lần lượt là và 2.754.
- Các bộ dữ liệu này được kết hợp ngẫu nhiên 4 cụm của từng loại bệnh với nhau.
- Nghiên cứu tiến hành kiểm thử với các giải thuật hồi qui tuyến tính, Nạve Bayes, K láng giềng gần nhất và RF trên 2 bộ dữ liệu với 70% dùng để huấn luyện và 30% dùng để kiểm thử.
- Kết quả kiểm thử ở Bảng 3 cho thấy trong 3 giải thuật, RF cĩ độ chính xác cao nhất và thấp nhất là giải thuật hồi qui tuyến tính.
- Kết quả kiểm thử trên bộ dữ liệu 1 khơng cĩ K-mean.
- Giải thuật Precision.
- Kết quả chính xác lớn nhất trên bộ dữ liệu 2 (Cĩ sử dụng K-Mean).
- Bộ dữ liệu được sử dụng cĩ nhiễu, dẫn tới kết quả dự đốn với độ chính xác khơng được cao như mong đợi.
- Điều này đến từ các yếu tố như đã trình bày ở mục 2.1 về việc lựa chọn dữ liệu phân loại..
- Việc sử dụng đặc trưng SURF kết hợp với giải thuật K-means để tách các điểm được xem là bệnh ra khỏi những điểm ảnh nhiễu làm số lượng mẫu tăng lên, giúp cho kết quả dự đốn cĩ độ chính xác cao hơn..
- Số lượng đặc trưng chưa đồng đều giữa các bệnh: Các vector đặc trưng xuất hiện nhiều trên các bộ dữ liệu tơm bệnh đen mang, đốm đen, đốm trắng và hoại tử cơ.
- Giải thuật RF cĩ độ chính xác cao nhất, đạt 85,9% theo tiêu chí đánh giá Recall.
- hình ảnh của 5 loại bệnh tơm và hình ảnh tơm khỏe mạnh, từ nhiều nguồn khác nhau, để chia làm 6 lớp dữ liệu.
- Sau khi tiền xử lý, 2 bộ dữ liệu thu được.
- Việc kiểm thử các giải thuật AI trong nhận diện bệnh tơm được tiến hành trên 4 giải thuật, gồm: giải thuật hồi qui tuyến tính, Nạve Bayes, K láng giềng gần nhất và RF.
- Các giải thuật.
- này được huấn luyện trên 70% số mẫu của bộ dữ liệu và được kiểm tra trên 30% số mẫu cịn lại.
- Các tiêu chí được dùng để đánh giá độ tin cậy của giải thuật bao gồm: Precision, Recall và F1.
- Kết quả kiểm thử cho thấy giải thuật RF cĩ độ chính xác cao nhất, đạt 85,9% theo tiêu chí đánh giá Recall..
- Trong thời gian tới, để cải thiện độ tin cậy của giải thuật nhận dạng, một số biện pháp sau cần được áp dụng như: (i) tăng số dữ liệu mẫu huấn luyện.
- (ii) phân chia bộ dữ liệu theo từng nhĩm đặc trưng khác nhau như màu sắc, hình dạng.
- (iii) tiếp tục áp dụng giải thuật học sâu trong huấn luyện dữ liệu và nhận diện bằng cơ chế attention.
- Cơ chế attention là một cơ chế giúp giải thuật cĩ thể tập trung vào các phần quan trọng trên dữ liệu, bằng việc tạo ra một giải thuật liên kết với các điểm căn chỉnh để đánh lại trọng số các trạng thái ẩn của mã hĩa..
- Thu thập dữ liệu tơm bệnh/ Truy cập 11/08/2020