« Home « Kết quả tìm kiếm

XÂY DỰNG HỆ THỐNG HỖ TRỢ KHUYẾN NÔNG TRÊN CÂY LÚA QUA MẠNG THÔNG TIN DI ĐỘNG


Tóm tắt Xem thử

- Để xây dựng được hệ thống, trước hết ta cần xây dựng mô-đun gửi và nhận tin nhắn SMS/MMS.
- Tiếp đến, một mô-đun phân loại tin nhắn được thiết lập dựa trên sự kết hợp các phương pháp máy học với công nghệ xử lý ảnh và xử lý văn bản.
- Trong bài viết này, chúng tôi đề xuất một giải pháp mới nhằm hỗ trợ cho công tác khuyến nông, cụ thể là khuyến nông qua mạng thông tin di động bằng tin nhắn SMS/MMS.
- Bài viết tập trung nghiên cứu các công nghệ cũng như các phương pháp để xây dựng những mô-đun thiết yếu cho hệ thống như mô-đun gửi và nhận tin nhắn SMS/MMS, mô- đun phân loại tin nhắn tự động bằng kỹ thuật phân loại văn bản dùng giải thuật SVM và sau cùng là xây dựng một website hoàn chỉnh để tích hợp các module trên, quản lý và cấu hình hệ thống..
- thì họ có thể đặt câu hỏi bằng tin nhắn SMS hoặc chụp lại hình ảnh hiện trạng (MMS) (có thể kèm theo câu hỏi) để gửi đến hệ thống bằng điện thoại di động..
- Đối với tin nhắn hình ảnh, hiện tại hệ thống chưa hỗ trợ phân loại tự động, khi hệ thống nhận được hình ảnh mà nhà nông gửi lên, điều phối viên sẽ xem xét và phân loại hình ảnh đó rồi gửi cho chuyên gia giải đáp, sau khi nhận được câu trả lời của chuyên gia thì hệ thống sẽ tự động gửi nội dung trả lời cho nhà nông..
- Hình 1: Mô hình hoạt động của hệ thống Đối với tin nhắn văn bản, khi nhận được câu.
- hỏi của nhà nông qua mô-đun gửi nhận tin nhắn SMS, mô-đun phân loại tin nhắn SMS tự động sẽ tự động thực hiện một số bước tiền xử lý cơ bản như tách từ, chọn từ khóa hay loại bỏ từ dừng.
- Khi hệ thống nhận đủ số lượng tin nhắn SMS mới đến (theo cấu hình của hệ thống), hệ thống sẽ tự động xây dựng lại bộ từ khóa và huấn luyện lại mô hình với bộ từ khóa và dữ liệu mới, sau khi huấn luyện xong hệ thống sẽ sử dụng mô hình mới huấn luyện vào phân loại tin nhắn mới đến hệ thống.
- Xây dựng mô-đun gửi/nhận tin nhắn SMS/MMS.
- Xây dựng mô-đun phân loại nội dung tin nhắn văn bản bằng kỹ thuật SVM..
- 2.2 Xây dựng mô-đun gửi và nhận tin nhắn 2.2.1 Tin nhắn văn bản (SMS).
- Gửi tin nhắn: Về tổng thể, có 2 cách để gửi tin nhắn SMS từ điện thoại di động đến máy tính (Developer’s Home, 2014)..
- Sau đó dùng tập lệnh AT để chỉ thị cho điện thoại hoặc modem gửi tin nhắn SMS.
- Bảng 1: Một số lệnh AT dùng để gửi tin nhắn Lệnh AT Công dụng.
- AT + CMGS Gửi tin nhắn.
- AT + CMSS Gửi tin nhắn từ bộ lưu trữ AT + CMGW Ghi tin nhắn vào bộ nhớ AT + CMGD Xóa tin nhắn.
- AT + CMMS Gửi thêm tin nhắn.
- Sau đó gửi tin nhắn SMS bằng cách sử dụng các giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway..
- Cách gửi tin nhắn thông qua modem hay điện thoại di động kết nối trực tiếp với máy tính có hạn chế là tốc độ gửi tin nhắn SMS rất thấp.
- Nếu không thể kết nối trực tiếp đến Trung tâm SMS hoặc SMS Gateway của mạng không dây thì ta có thể kết nối đến SMS Gateway của một nhà cung cấp dịch vụ SMS nào đó, lúc đó SMS Gateway này sẽ chuyển tiếp tin nhắn SMS đến một Trung tâm SMS thích hợp.
- Nhận tin nhắn: Tương tự như việc gửi tin SMS, cũng có 2 cách để nhận tin nhắn SMS trên máy tính..
- Sau đó dùng máy tính và tập lệnh AT để đọc tin nhắn nhận được từ điện thoại đi động hoặc modem.
- Việc nhận tin nhắn SMS thông qua một modem có một lợi thế là nhà mạng không dây thường không tính phí nhận tin nhắn khi dùng với một Mô-đun Nhận diện Thuê bao (thẻ SIM).
- Bất lợi của việc nhận tin nhắn theo cách này là modem không thể xử lý một số lượng lớn lưu lượng tin nhắn SMS truy cập.
- Bảng 2: Một số lệnh AT dùng để nhận tin nhắn SMS.
- AT + CNMI Để xác định tin nhắn mới AT + CMGL Liệt kê tất cả tin nhắn AT + CMGR Đọc tin nhắn.
- Cách 2: Truy cập đến Trung tâm tin nhắn (SMSC) hoặc SMS Gateway của mạng không dây..
- Mọi tin nhắn SMS nhận được sẽ được chuyển tiếp đến máy tính thông qua giao thức/giao diện được hỗ trợ bởi SMSC hoặc SMS Gateway..
- Cũng giống như việc gửi tin nhắn, việc nhận tin nhắn thông qua điện thoại hoặc modem GSM/GPRS có một số hạn chế, đó là tốc độ truyền tải SMS quá thấp.
- Sau khi thiết lập một tài khoản với nhà mạng không dây hoặc nhà cung cấp dịch vụ SMS, SMSC hoặc SMS Gateway sẽ bắt đầu chuyển tiếp các tin nhắn đến ứng dụng SMS bằng cách sử dụng một số các giao thức/giao diện.
- Việc nhận tin nhắn theo cách này cũng dễ như việc gửi..
- 2.2.2 Tin nhắn đa phương tiện (MMS).
- Các giao thức của mô hình MMS: Các thiết bị di động (MMS Clients) và các Trung tâm tin nhắn đa phương tiện muốn liên lạc được với nhau phải thông qua các giao thức.
- MM1 là giao thức được sử dụng giữa thiết bị di động với Trung tâm tin nhắn MMS (MMSC)..
- Nó định nghĩa cách thức mà một điện thoại di động gửi và nhận tin nhắn thông qua MMSC..
- MM3 là giao thức được sử dụng giữa trung tâm MMS và các hệ thống tin nhắn khác.
- Giao thức này cần thiết cho việc trao đổi tin nhắn đa phương tiện giữa các môi trường MMS riêng biệt (như giữa hai mạng di động khác nhau)..
- MM7 là giao thức được sử dụng để cho phép các ứng dụng của nhà cung cấp dịch vụ giá trị gia tăng (VASP) gửi và nhận tin nhắn MMS thông qua một MMSC.
- MM10 là giao thức cho phép tương tác giữa trung tâm MMS và một cơ quan kiểm soát dịch vụ tin nhắn (MSCF)..
- Cách nhận tin nhắn MMS: Về cơ bản, việc nhận tin nhắn từ máy tính có thể được thực hiện bằng hai phương thức kết nối khác nhau..
- Cách 1: Tin nhắn MMS được nhận qua kết nối trực tiếp tới Trung tâm tin nhắn MMS của nhà mạng bằng cách sử dụng một trong những giao thức được hỗ trợ, bao gồm MM4, MM7, hoặc EAIF.
- Khi sử dụng bất kì giao thức nào trong các giao thức này, trung tâm tin nhắn của nhà mạng sẽ tự động kết nối đến MMS Gateway để lấy tin nhắn..
- Cách 2: Tin nhắn MMS có thể được lấy về bằng cách sử dụng công nghệ SMS kết hợp với công nghệ WAP.
- Để nhận được một tin nhắn MMS cần trải qua hai giai đoạn.
- Giai đoạn một, modem nhận tin nhắn SMS, còn gọi là tin nhắn thông báo MMS.
- Tin nhắn này chứa URL của tin nhắn MMS trên Trung tâm tin nhắn đa phương tiện (MMSC)..
- Giai đoạn hai, khi modem đã nhận được tin nhắn thông báo MMS, modem mở kết nối GPRS đến Wap Gateway để tải về nội dung tin nhắn MMS về từ trung tâm tin nhắn đa phương tiện..
- Hình 2: Mô hình nhận tin nhắn MMS từ ứng dụng Cách gửi tin nhắn MMS: Để gửi tin nhắn MMS thì ứng dụng khởi tạo một kết nối GPRS đến Wap Gateway của nhà mạng và thực hiện gửi tin nhắn MMS đến Trung tâm tin nhắn MMS (MMSC) thông qua kết nối WAP và GPRS..
- Hình 3: Mô hình gửi tin nhắn MMS từ ứng dụng Để thuận lợi và không mất nhiều thời gian cho việc xây dựng và phát triển hệ thống, nghiên cứu sử dụng thư viện SMSLIB (SMSLib, 2014) để gửi và nhận tin nhắn SMS và tin nhắn thông báo MMS, thư viện jWAP (jWAP, 2014) để kết nối đến Wap Gateway nhà mạng và JMMSLIB (jMmsLib, 2014) để giải mã tin nhắn MMS.
- 2.3 Xây dựng mô-đun phân loại tin nhắn SMS 2.3.1 Bài toán phân lớp (classification) Là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp cho trước nhờ một mô hình phân lớp mà mô hình này được xây dựng dựa trên một tập hợp các đối tượng dữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu học (training data)..
- exp(-||u-v|| 2 ) Trong nghiên cứu này, chúng tôi thực hiện xây dựng và huấn luyện mô hình phân loại tin nhắn SMS nhờ vào sự hỗ trợ của công cụ LibSVM (Chang, C.C., Lin, C.J., 2011)..
- 2.3.3 Phân loại tin nhắn văn bản (SMS) Phân lớp văn bản được định nghĩa là việc gán tên các chủ đề (tên lớp/nhãn lớp) cho trước vào các văn bản dựa trên nội dung của nó.
- Hình 5: Mô hình phân lớp tin nhắn văn bản với SVM.
- Xây dựng mô hình phân loại tin nhắn.
- Ngoài ra, ta cũng thêm một lớp là lớp tin nhắn rác nếu nó không thuộc một trong sáu lớp trên, đây là một dạng bài toán phân lớp đa lớp..
- Nghiên cứu sử dụng phần mềm tách từ VnTokenizer 1 để thực hiện việc tách tin nhắn thành các từ độc lập, công cụ này được phát triển dựa trên phương pháp so khớp tối đa (Maximum matching) với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt.
- Xây dựng bộ từ khóa tự động: Từ tập dữ liệu thu thập được hệ thống sẽ thực hiện việc tách từ và loại bỏ từ dừng, do văn bản là tin nhắn nên số lượng từ khóa không nhiều và ít khi lặp lại nên hệ thống không thực hiện việc giảm số chiều (số đặc trưng) mà dùng tất cả các từ còn lại sau khi loại bỏ từ dừng để xây dựng bộ từ khóa, với phương án tự động thì việc xây dựng bộ từ khóa được thực hiện nhanh hơn và không mất nhiều công sức cũng như không cần sự trợ giúp của các chuyên gia nhưng chất lượng các từ khóa thì không cao vì không phải từ nào được giữ lại cũng có ý nghĩa phân loại, số lượng từ khóa sẽ nhiều hơn rất nhiều so với phương án thủ công..
- Biểu diễn tin nhắn bằng vec-tơ đặc trưng Trong nghiên cứu này, chúng tôi sử dụng SVM để phân loại tin nhắn văn bản do SVM có nhiều ưu.
- Ví dụ về định dạng tập tin huấn luyện với dữ liệu là các tin nhắn..
- Tin nhắn sau khi tách từ và loại bỏ từ dừng:.
- Định dạng tập tin huấn luyện của các tin nhắn trên như sau:.
- Như ta đã thấy, tin nhắn thứ nhất và thứ hai thuộc lớp sâu bệnh hại lúa, như vậy nhãn (lớp) của các tin nhắn này trong tập tin định dạng là 1.
- Chú ý rằng thứ tự các từ trong tin nhắn không quan trọng, khi xác định trọng số các từ, ta viết theo thứ tự từ nhỏ đến lớn..
- Nếu như hệ thống được người sử dụng cấu hình là sử dụng phương án thủ công thì khi xây dựng tập huấn luyện, hệ thống sẽ chọn từ khóa trong tin nhắn sau khi tách từ bằng cách chỉ giữ lại những từ có trong danh sách từ.
- Một vấn đề quan trọng cần quan tâm khi xây dựng tập dữ liệu là thói quen nhắn tin tiếng Việt không bỏ dấu của người dùng, do vậy trong quá trình xây dựng tập dữ liệu và bộ từ khóa nếu ta chỉ sử dụng tiếng Việt có dấu thì sẽ làm cho kết quả phân loại trở nên không chính xác mặc dù nội dung tin nhắn có chứa từ khóa cần thiết cho phân loại, chỉ có khác là từ khóa đó không có dấu tiếng Việt..
- Để giảm sai sót trong phân loại tin nhắn, chúng tôi đề xuất một giải pháp để xây dựng bộ từ khóa và tập tin huấn luyện trong mô hình phân loại tin nhắn.
- các từ khác nhau nhưng cùng nghĩa, các từ địa phương… Việc xây dựng tập dữ liệu được thực hiện bằng cách với một tin nhắn tiếng Việt có dấu đã được phân loại, hệ thống sẽ tự động tạo ra thêm một tin nhắn tiếng Việt không có dấu và lưu vào cơ sở dữ liệu để sử dụng cho việc xây dựng lại mô hình.
- Sau khi kiểm tra độ chính xác phân lớp của mô hình, nếu độ chính xác chấp nhận được, ta đưa mô hình vào sử dụng để phân loại các tin nhắn mới..
- Tương tự như quá trình xây dựng tập huấn luyện, tin nhắn mới đến hệ thống sẽ được tiền xử lý, tách từ và véc-tơ hóa theo định dạng giống như định dạng của tập tin huấn luyện với phương án mà.
- Chỉ có một điểm khác là nhãn phân lớp của tin nhắn mới này là nhãn tạm cho tin nhắn mới, sau khi đưa vào mô hình phân loại, nhãn tạm này sẽ được tự động thay thế bằng nhãn chính thức, định dạng của tập tin cần phân loại như sau:.
- Phân loại lại tin nhắn nếu có sai sót..
- Cập nhật, phân loại tin nhắn.
- Chuyên gia, chuyên môn và tin nhắn.
- Một chuyên gia có thể trả lời nhiều tin nhắn, một tin nhắn chỉ được trả lời bởi một chuyên gia.
- Để xác định nhãn (phân lớp chuyên ngành) cho các tin nhắn này thì chúng tôi dùng mô-đun phân loại bán tự động để gán thủ công.
- Với phương án chọn từ khóa tự động thì sau khi thực hiện các bước cần thiết để xây dựng bộ từ khóa trên tập dữ liệu gồm 400 tin nhắn câu hỏi như trên, chúng tôi thu được bộ từ khóa gồm 1044 từ, là những từ được giữ lại sau khi loại bỏ từ dừng, các ký tự đặc biệt và ký tự số không có ý nghĩa trong phân loại..
- Để phân loại tin nhắn bằng SVM, chúng tôi sử dụng bộ thư viện LibSVM (Chang et al., 2011)..
- Bằng nghi thức kiểm tra chéo (10-folds) trên tập học, mô-đun phân loại tin nhắn cho độ chính xác đạt 69,94%.
- Do đang trong giai đoạn nghiên cứu và thu thập dữ liệu, nhóm tác giả chỉ mới thực hiện kiểm tra độ chính xác trên bộ dữ liệu thu thập và xây dựng được, nhóm tác giả chưa thực hiện kiểm tra độ chính xác với tin nhắn ngoài thực tế.
- Sau khi tin nhắn chứa câu hỏi được phân loại, nó được chuyển đến chuyên gia thích hợp để trả lời.
- 3.1.2 Trang phân loại nội dung tin nhắn (bán tự động).
- Có chức năng hiển thị các tin nhắn đã được phân loại bởi mô-đun phân loại tự động nhưng chưa được phân loại bởi quản trị/điều phối viên..
- Điều phối viên đăng nhập vào trang này để thực hiện phân loại (gán nhãn) tin nhắn..
- Hình 9: Trang phân loại nội dung tin nhắn 3.1.3 Trang cấu hình hệ thống.
- Cho phép thay đổi các thông số cấu hình hệ thống như thời gian hệ thống lặp lại việc truy vấn và huấn luyện lại mô hình, số lượng tin nhắn mới để thực hiện huấn luyện lại,….
- Câu hỏi đi kèm một mã số để xác định tin nhắn trong cơ sở dữ liệu tin nhắn.
- Hình 11 minh họa nội dung tin nhắn SMS được hệ thống gửi đến cho chuyên gia trả lời..
- Hình 11: Tin nhắn được hệ thống gửi đến cho chuyên gia trả lời.
- Hình 12 minh họa nội dung tin nhắn SMS được hệ thống gửi cho nhà nông để giải đáp thắc mắc của nhà nông..
- Hình 12: Tin nhắn được hệ thống gửi cho nhà nông để giải đáp thắc mắc của nhà nông 4 KẾT LUẬN VÀ ĐỀ XUẤT.
- Trong nghiên cứu này chúng tôi đã tìm hiểu và trình bày khái quát một số kiến thức về hệ thống thông tin di động, cách thức để cấu hình hệ thống, gửi và nhận tin nhắn từ máy vi tính đến điện thoại di động, các kỹ thuật phân loại văn bản và tin nhắn văn bản bằng SVM..
- Chúng tôi cũng xây dựng thủ công được bộ từ khóa gồm 243 từ thuộc các chuyên ngành lúa để minh họa cho việc phân loại văn bản tự động bằng SVM theo phương án thủ công, và một tập dữ liệu huấn luyện bước đầu của hệ thống gồm 200 tin nhắn SMS tham khảo tại (Thư viện KHCN Quảng Trị, 2014.
- Ngoài ra, chúng tôi đã đề xuất các phương án để xây dựng bộ từ khóa và tập dữ liệu để nâng cao độ chính xác cho mô hình phân loại tin nhắn tiếng Việt không dấu do nhắn tin tiếng Việt không dấu thì dễ dàng và thuận lợi hơn cho nhà nông, nhắn được nhiều ký tự hơn (tiếng Việt không dấu là 160 ký tự/1 tin nhắn, tiếng Việt có dấu là 70 ký tự/1 tin nhắn) và nhà nông không cần phải có điện thoại cấu hình cao mới có thể đặt câu hỏi bằng SMS..
- Hiện tại, chúng tôi xây dựng mô-đun gửi nhận tin nhắn đa phương tiện giới hạn chỉ với hai nhà mạng di động là Mobifone và Vinaphone.
- Giới hạn về số lượng ký tự trong một tin nhắn và việc người dùng có thói quen nhắn tin tiếng Việt không có dấu làm cho việc phân loại tin nhắn văn bản trở nên khó khăn hơn..
- Phát triển hệ thống để hỗ trợ gửi và nhận tin nhắn đa phương tiện (MMS) của tất cả các nhà mạng hiện hành ở Việt Nam..
- Phát triển mô-đun phân loại tin nhắn hình ảnh tự động bằng các kỹ thuật xử lý ảnh và máy học..
- Xây dựng một hệ thống hoàn toàn tự động dựa vào sự kết hợp hai kỹ thuật phân loại, phân loại tin nhắn văn bản và phân loại tin nhắn hình ảnh..
- Hoàn thiện thêm tập dữ liệu để có thể phân loại tin nhắn SMS không gõ dấu tiếng Việt được hiệu quả hơn.