« Home « Kết quả tìm kiếm

Ứng dụng giải thuật gom nhóm dữ liệu để nhận diện sự tương đồng giữa các giống lúa


Tóm tắt Xem thử

- ỨNG DỤNG GIẢI THUẬT GOM NHÓM DỮ LIỆU.
- ĐỂ NHẬN DIỆN SỰ TƯƠNG ĐỒNG GIỮA CÁC GIỐNG LÚA Lưu Tiến Đạo 1 , Âu Tấn Tài 2 , Vũ Anh Pháp 3 và Trần Nguyễn Minh Thư 2.
- 3 Viện Nghiên cứu Phát triển Đồng bằng sông Cửu Long, Trường Đại học Cần Thơ.
- Thông tin chung:.
- Gom cụm dữ liệu, giống lúa, khai khoáng dữ liệu.
- Vấn đề cấp bách đặt ra là cần tìm các giải pháp chọn tạo nhanh và chính xác giống lúa mới, có năng suất, chất lượng cao, chống chịu các tác nhân sinh học và phi sinh học, đặc biệt là thích ứng với điều kiện khí hậu cực đoan đang diễn ra phức tạp.
- Từ năm 1976 đến nay, Trường Đại học Cần Thơ đã sưu tập và lưu giữ hầu hết các giống lúa mùa cổ truyền của vùng ĐBSCL.
- Hiện tại, Viện Nghiên cứu Phát triển ĐBSCL - Trường Đại học Cần Thơ đã lưu giữ được khoảng 2.000 mẫu giống lúa.
- Đây là nguồn tài nguyên gen quý giá phục vụ cho công tác bảo tồn, khai thác, sử dụng và chọn tạo giống lúa.
- Tuy nhiên, trong 2.000 mẫu giống lúa này có nhiều giống tương đồng với nhau do thu thập ở địa phương khác nhau.
- Nghiên cứu này ứng dụng các giải thuật gom nhóm dữ liệu (Clustering) để tạo ra phần mềm hỗ trợ cho các chuyên gia về giống lúa (i) phát hiện ra các mẫu lúa giống nhau và (ii) đánh giá được hệ số tương đồng giữa các giống lúa..
- Ứng dụng giải thuật gom nhóm dữ liệu để nhận diện sự tương đồng giữa các giống lúa.
- Từ những năm 1910, Việt Nam đã tiên phong trong bảo tồn các giống lúa địa phương.
- Trung tâm Thí nghiệm Lúa Cần Thơ, thành lập năm 1913 trực thuộc Cục Túc Mễ Đông Dương, đã sưu tập bảo tồn 800 giống lúa cổ truyền qua chương trình tuyển chọn giống lúa của Trung tâm.
- Ngay sau khi đất nước thống nhất, Đại học Cần Thơ từ năm 1976 đến nay đã sưu tập và lưu giữ hầu hết các giống lúa mùa cổ truyền của vùng ĐBSCL.
- Việc phân tích quan hệ di truyền không chỉ có ý nghĩa trong việc quản lý, bảo tồn các giống cây trồng bản địa mà còn có ý nghĩa trong công tác lai tạo giống chất lượng cao (Vũ Thị Thu Hiền, 2012) (Đoàn Thị Thùy Linh và Nguyễn Văn Khoa, 2013) (Đoàn Thanh Quỳnh và ctv., 2016) (Trần Thị Lương và ctv., 2013).
- Tác giả Vũ Thị Thu Hiền đã dùng phần mềm Excel cùng với phần mềm NTSYSpc để phân tích, đánh giá sự đa dạng di truyền của 41 giống lúa có nguồn gốc khác nhau dựa trên 14 tính trạng kiểu hình (Vũ Thị Thu Hiền, 2012).
- Bốn mươi mốt giống lúa này được phân thành 10 nhóm cách biệt di truyền với sự sai khác 0,08.
- để đánh giá sự khác biệt về hình thái của 50 mẫu giống lúa địa phương vùng Tây Bắc được thu thập và trồng khảo nghiệm tại huyện Thuận Châu, tỉnh Sơn La.
- Các số liệu phân tích thống kê bằng phần mềm Excel kết hợp với phần mềm NTSYSpc.
- Có thể liệt kê những công trình nghiên cứu gần đây ở Việt Nam như phân tích đa dạng di truyền của các mẫu giống đậu cô ve (Phạm Thị Ngọc và ctv., 2016), ngô (Lê Thị Minh Thảo và ctv., 2014) hay đậu nành rau (Nguyễn Lộc Hiền và ctv., 2010)..
- Trong nghiên cứu của Nguyễn Lộc Hiền và ctv..
- (2010), tác giả đã dùng phần mềm Statistica 5.0 để phân nhóm 22 giống đậu nành rau dựa trên 15 tính trạng hình thái - nông học..
- Nhìn chung, phần lớn các nghiên cứu về đa dạng di truyền sử dụng phần mềm có tính phí (Excel, NTSYSpc (Rohlf, 1998) hoặc Statistica (Nisbet et al., 2009)) và cần cài đặt trên từng máy.
- Điều này gây khó khăn cho các nhà nghiên cứu và đặc biệt là sinh viên.
- Vì vậy, trong bài báo này, chúng tôi trình bày phần mềm hỗ trợ các chuyên gia đánh giá hệ số tương đồng giữa các giống lúa.
- Phần mềm này được.
- thiết kế với mục đích cung cấp công cụ hỗ trợ gom nhóm các giống lúa dựa vào nhiều đặc điểm (hơn 60 thuộc tính cho mỗi giống) với số lượng giống khoảng vài ngàn và dễ sử dụng, phù hợp cho nhiều đối tượng, từ nhà nghiên cứu đến sinh viên ngành nông học.
- Phần mềm cho phép sử dụng ngay trên trình duyệt web, không cần tải và cài đặt phần mềm..
- Phần mềm được cài đặt các giải thuật gom nhóm và có các công cụ hỗ trợ nhà nghiên cứu đánh giá và phân tích kết quả gom nhóm.
- Phần mềm được thiết kế tuân theo chuẩn HTML5 và CSS3.
- Người dùng có thể sử dụng phần mềm trên mọi thiết bị mà không lo lắng về độ phân giải hay sự co giãn giao diện bởi chúng hoàn toàn giống như đang truy cập web trên màn hình máy tính cá nhân..
- 2 GOM NHÓM GIỐNG LÚA.
- Hệ thống tiêu chuẩn này giúp các nhà nghiên cứu lúa trên thế giới có một tiếng nói chung trong công tác đánh giá đặc tính của cây lúa, tạo điều kiện thuận lợi cho việc thu thập, xử lý và phân tích các số liệu.
- Bảng 2: Đánh giá mùi thơm theo IRRI Cấp Mùi thơm.
- Dựa trên hệ thống tiêu chuẩn đánh giá cây lúa của IRRI, Viện Nghiên cứu Phát triển ĐBSCL Trường Đại học Cần Thơ đã sưu tập và lưu trữ hơn 2.000 mẫu giống lúa.
- Mỗi giống lúa có hơn 60 thuộc tính như độ cứng của thân, chiều dài bông, độ ngập sâu trong năm, chiều dài hạt lúa, màu gạo lức, mùi thơm, dạng gạo.
- Các đặc tính này thuộc 5 nhóm:.
- sinh thái địa lý, đặc tính sinh lý, điều kiện môi trường canh tác, đặc tính sinh hoá hạt gạo và đặc tính hình thái.
- Mỗi đặc tính đều đã được số hoá nên việc tính toán độ tương đồng giữa các phần tử bằng các giải thuật gom nhóm được thực hiện dễ dàng.
- 2.2 Các giải thuật gom nhóm.
- Trong phiên bản đầu tiên hai giải thuật gom nhóm thông dụng là K-means và CLARA được cài đặt.
- Ý tưởng chính của thuật toán K-means là tìm cách gom nhóm các đối tượng (objects) đã cho vào k cụm (k là số các cụm được xác định trước, k nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất (Macqueen, 1967)..
- Trong một số trường hợp các nhà nghiên cứu chỉ muốn tìm kiếm các giống lúa dựa vào một số lượng thuộc tính nhất định.
- Giải thuật xây dựng phần mềm cho phép người sử dụng chọn lựa các thuộc tính cần thiết trong tổng số các thuộc tính đã thu thập để tiến hành gom nhóm.
- Từ tập dữ liệu ban đầu gồm n phần tử và số cụm xác định là k..
- k) làm tâm của k cụm từ tập dữ liệu ban đầu..
- Xác định trọng tâm gần nhất cho mỗi đối tượng tức là xác định nhóm cho mỗi đối tượng trong tập dữ liệu dựa vào khoảng cách tính được..
- Cập nhật lại trọng tâm cho mỗi cụm bằng cách tính trung bình cộng vector của các đối tượng dữ liệu trong mỗi cụm..
- CLARA tiến hành trích mẫu cho tập dữ liệu có n phần tử.
- Phần mềm có các thành phần như sau (Hình 1):.
- Khung đọc dữ liệu: Dùng để nạp file dữ liệu với định dạng *.csv từ máy tính.
- Dữ liệu phải được xử lý theo mẫu định sẵn (Cột đầu tiên là tên các giống lúa, hàng đầu tiên là tên các thuộc tính)..
- Khung đặc tính: Các đặc tính được truy xuất bằng cách lấy dữ liệu từ dòng thứ nhất của dữ liệu..
- Người dùng có thể tùy chọn các thuộc tính tùy vào mục đích nghiên cứu để tiến hành gom nhóm dữ liệu..
- Khung danh sách đặc tính: Hiển thị các đặc tính được chọn từ khung đặc tính, sẵn sàng cho bước thực hiện giải thuật gom nhóm..
- Khung lựa chọn giải thuật: Có thể tùy chọn 1 trong 2 cách gom nhóm: K-means và CLARA..
- Người dùng sẽ phải nhập số nhóm trước khi tiến hành gom nhóm dữ liệu..
- Khung kết quả gom nhóm: Hiển thị biểu đồ kết quả gom nhóm các giống lúa.
- Các nút chứa thông tin chi tiết của các giống lúa thuộc vào từng nhóm (nhấn vào để hiển thị)..
- Phần mềm bao gồm 2 quá trình chính:.
- Quá trình nạp dữ liệu:.
- Chương trình nạp dữ liệu đầu vào từ một file csv..
- Dữ liệu được duyệt qua, thông tin dòng đầu tiên (đặc tính) của bảng dữ liệu được trích xuất và hiển thị ra.
- dạng danh sách các đặc tính giống lúa để người dùng có thể chọn lọc ra tùy vào mục đích nghiên cứu..
- Thông tin các đặc tính được chọn sẽ được đẩy vào một mảng để tiến hành tạo ra một file csv mới (chỉ bao gồm các cột được chọn).
- Hình 2: Phương thức hoạt động của phần mềm.
- Quá trình gom nhóm:.
- Tập tin dữ liệu được xuất ra từ bước trên được truyền cho R xử lý bằng giải thuật được chọn.
- Tập tin ảnh là biểu đồ của kết quả gom nhóm được hiển thị trực tiếp trên nền web, tập tin text được tiếp tục xử lý bằng PHP, từng phần tử sẽ được đưa vào nhóm của nó (mảng)..
- Các phần tử thuộc mỗi nhóm sẽ tiếp tục được duyệt qua với tất cả phần tử, lọc ra thông tin từ các cột đặc tính còn lại và hiển thị thành bảng chứa đầy đủ thông tin các giống lúa đã chọn ở bước 2.
- Việc xét để lấy thông tin các giống lúa sẽ chạy số vòng lặp tương ứng với số các phần tử có trong mỗi nhóm, thay vì phải chạy qua hết các phần tử (độ phức tạp sẽ cao hơn)..
- 4 KẾT QUẢ.
- Hiện nay, phần mềm này được tích hợp vào ngân hàng thông tin giống lúa vùng ĐBSCL đang triển khai trong mạng nội bộ của Viện Nghiên cứu Phát triển ĐBSCL để gom nhóm các mẫu giống lúa đang được bảo quản tại Viện..
- Để chạy gom nhóm cho một tập dữ liệu.
- Bước 1: Duyệt dữ liệu để tải lên web (Hình 3), thời gian tải lên phục thuộc vào kích thước của tập dữ liệu.
- Với tập dữ liệu bao gồm 1.000 giống lúa, quá trình đọc dữ liệu chỉ mất khoảng 8 giây..
- Hình 3: Nạp dữ liệu để gom nhóm Bước 2: Tìm và chọn các đặc tính bằng cách gõ từ khóa có trong tên đặc tính (Hình 4).
- Khuyến khích chọn các đặc tính thuộc cùng nhóm (cùng tiêu chí đánh giá) như vậy sẽ giúp việc gom nhóm này tương quan đến các tri thức về nông, sinh học và cho ra kết quả bám sát hơn với kinh nghiệm thực tiễn..
- Hình 4: Tùy chọn các đặc tính tiến hành gom nhóm.
- Bước 3: Chọn phương pháp tiến hành phân loại giống lúa (Kmeans và CLARA) (Hình 5).
- Số nhóm cho phân loại sẽ được gợi ý cho người dùng bằng 5% số phần tử có trong dữ liệu (dữ liệu 1.000 giống sẽ là 50 nhóm).
- Hình 5: Chọn phương pháp gom nhóm và số nhóm mong muốn.
- ở bước 3, phần mềm tiến hành gom nhóm giống lúa và cho kết quả tương tự như Hình 6.
- Để giúp các nhà nghiên cứu về giống lúa đánh giá kết quả gom nhóm, chúng tôi đã xây dựng chức năng xem thông tin chi tiết các giống lúa trong mỗi nhóm (Hình 7)..
- Hình 6: Kết quả gom nhóm.
- Hình 7: Thông tin chi tiết các giống lúa trong mỗi nhóm.
- 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đã đề xuất một mô hình đánh giá sự tương đồng giữa các giống lúa dựa trên phương pháp gom nhóm dữ liệu.
- Chúng tôi tiến hành xây dựng phần mềm với 2 giải thuật K-means và CLARA..
- Phần mềm được xây dựng theo tiêu chí dễ sử dụng, có các công cụ trực quan hỗ trợ các nhà nghiên cứu đánh giá kết quả gom nhóm.
- Bên cạnh đó, người dùng cũng được cung cấp chức năng cho phép chọn lựa đặc tính để gom nhóm.
- Chúng tôi sẽ đưa thêm vào phần mềm nhiều giải thuật gom nhóm, ví dụ như các giải thuật cây phân cấp..
- Bài báo này được thực hiện trong khuôn khổ đề tài nghiên cứu khoa học cấp trường, mã số đề tài:.
- Đánh giá đa dạng di truyền nguồn gen lúa nếp địa phương dựa trên kiểu hình và chỉ thị phân tử.
- Đa dạng di truyền một số mẫu giống lúa địa phương vùng Tây Bắc dựa trên đặc điểm hình thái.
- Phân tích đa dạng di truyền dựa trên kiểu hình và chỉ thị phân tử SSR và đánh giá khả năng chịu hạn của các dòng ngô nếp tự phối - phục vụ phát triển ngô nếp cho các tỉnh miền núi phía Bắc.
- Sự đa dạng di truyền của các giống đậu nành rau Nhật Bản.
- Phân tích đa dạng di truyền của các mẫu giống đậu cô ve bằng chỉ thị hình thái và chỉ thị phân tử SSR.
- Phân tích quan hệ di truyền của một số giống lúa đặc sản, chất lượng, trồng phổ biến ở Việt Nam bằng chỉ thị phân tử SSR.
- Đa dạng di truyền dựa trên đặc điểm hình thái của các mẫu giống lúa có nguồn gốc khác nhau