« Home « Kết quả tìm kiếm

NHẬN DẠNG ĐIỂM VIẾT TAY TRÊN BẢNG ĐIỂM VỚI BIẾN ĐỔI HOUGH VÀ ĐẶC TRƯNG GIST


Tóm tắt Xem thử

- NHẬN DẠNG ĐIỂM VIẾT TAY TRÊN BẢNG ĐIỂM VỚI BIẾN ĐỔI HOUGH VÀ ĐẶC TRƯNG GIST Lê Thanh Trúc 1 và Phạm Nguyên Khang 2.
- Điểm viết tay, phát hiện bảng, phát hiện các ô, nhận dạng biểu mẫu, nhận dạng điểm viết tay.
- Nhận dạng biểu mẫu tự động đang là bài toán thu hút nhiều sự chú ý và đầu tư nghiên cứu của nhiều người trên thế giới.
- Sự cần thiết của nhận dạng biểu mẫu đóng vai trò quan trọng trong nhập và xử lý dữ liệu tự động cũng như hiệu quả và lợi ích nó mang lại trong thực tế.
- Nghiên cứu “Nhận dạng điểm số viết tay trên bảng điểm” được xuất phát từ nhu cầu thực tế của Phòng Đào tạo cũng như các khoa tại Trường Đại học Tây Đô.
- Bài toán này được nghiên cứu thực hiện qua nhiều công đoạn như khử nhiễu, khử nghiêng, xây dựng lại bảng, định vị cột và cuối cùng là nhận dạng điểm số viết tay trong cột định vị bằng cách sử dụng GIST và SVM.
- Để giải quyết bài toán này, nghiên cứu thực hiện phương pháp kết hợp lý thuyết và thực nghiệm, sau đó nhận xét và đánh giá chương trình..
- Phương pháp nghiên cứu đưa ra có một số điểm nổi bật như sau: thứ nhất là định vị và xây dựng bảng không cần dùng bất kỳ máy học nào cũng như không cần biết trước vị trí logic của bảng trong biểu mẫu.
- Sản phẩm cuối cùng nghiên cứu đạt được là xây dựng thành công phần mềm “Nhận dạng điểm số viết tay trên bảng điểm” với phiên bản 1.0.
- Phần mềm này cho phép tải bảng điểm, sau đó, nhận dạng điểm và xuất kết quả nhận dạng sang file bất kỳ với độ chính xác lên đến 97,30% trên 187 bảng điểm..
- 1.1 Tình hình nhận dạng biểu mẫu và chữ viết tay.
- Nhận dạng chữ là lĩnh vực được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay.
- Nhận dạng chữ gồm nhận dạng chữ in và nhận dạng chữ viết tay.
- Nhận dạng chữ in thường được ứng dụng phục vụ công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp.
- Nhận dạng chữ viết tay thường phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay,….
- Đến thời điểm này, bài toán nhận dạng chữ in đã được giải quyết gần như trọn vẹn như sản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng 20 ngôn ngữ khác nhau với độ chính xác hơn 99%.
- Phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản tiếng Việt với độ chính xác trên 98%.
- Tuy nhiên, bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu..
- Bên cạnh đó, bài toán nhận dạng chữ viết tay hạn chế với các kết quả chủ yếu chỉ tập trung trên các tập dữ liệu chữ số viết tay chuẩn như USPS và MNIST..
- Nhận dạng biểu mẫu bảng được nhiều nhà nghiên cứu trong và ngoài nước quan tâm nghiên cứu vì tính ứng dụng rộng rãi ngoài thực tiễn của nó.
- Hiện nay, trên thế giới có nhiều công trình nghiên cứu nhận dạng biểu mẫu một cách tự động..
- Ở Việt Nam, với nghiên cứu “Phân tích cấu trúc và nhận dạng biểu mẫu” do Đỗ Thanh Cao - Đại học Cần Thơ thực hiện năm 2011, nghiên cứu này nhắm đến nhận dạng các biểu mẫu trong ngành ngân hàng.
- Tuy nhiên, nghiên cứu không thực hiện trên biểu mẫu bảng.
- Công trình “Áp dụng phương pháp T-Recs vào nhận dạng bảng” do Tô Văn Khánh và Ngô Quốc Tạo nghiên cứu được trình bày ở Hội nghị khoa học Viện Công nghệ Thông Tin và công trình “Phát hiện cấu trúc bảng trong nhận dạng văn bản” do tác giả Bùi Thị Thi – Đại học Công Nghệ Thông Tin và Truyền Thông Thái Nguyên thực hiện năm 2012, hai công trình này thực hiện nhận dạng trên biểu mẫu bảng với phương pháp T-Recs và T-Recs.
- Bên cạnh đó, công trình “Nghiên cứu ứng dụng đường cong tham số B-SPLINE vào nhận dạng chữ số viết tay”.
- Công trình này sử dụng đường cong B-Spline vào nhận dạng ký tự in và ký tự viết tay trên bảng điểm ở Trung học Phổ thông..
- 1.2 Giới thiệu bài toán nghiên cứu.
- Sau khi sinh viên thi, bài thi được các giảng viên nhận về chấm và lên điểm bằng tay vào bảng điểm (Hình 1).
- Nghiên cứu cần xây dựng chương trình nhận dạng điểm viết tay trên cột điểm tổng cộng và xuất kết quả sang file bất kỳ (*.csv, *.xls,.
- Với bài toán trên, nghiên cứu đề ra hai mục tiêu chính.
- Thứ nhất là định vị chính xác các ô điểm số viết tay trên cột điểm tổng cộng.
- Thứ hai là nhận dạng chính xác điểm số viết tay trong các ô đã được định vị với độ chính xác 80% trở lên trên mỗi bảng điểm..
- 1.3 Đối tượng và phạm vi nghiên cứu Nghiên cứu được thực hiện trên đối tượng là các file ảnh bảng điểm được thu nhận qua máy scanner là các file .pdf đã có sẵn, ảnh đầu vào có kích thước 5100 x 7017..
- Phạm vi các điểm nghiên cứu nhận dạng gồm có điểm là các số tròn, không chứa số lẻ.
- Nghiên cứu thu thập 603 ảnh bảng điểm và tiến hành thống kê theo giảng viên, sau đó chia các bảng điểm theo mỗi giảng viên làm ba phần.
- Hai phần nghiên cứu thực hiện kiểm tra định vị ô và lấy điểm số viết tay cho máy học, nhóm này được gọi là nhóm bảng điểm huấn luyện (416 ảnh).
- Phần còn lại nghiên cứu để dành cho việc nhận dạng được gọi là nhóm bảng điểm nhận dạng (187 ảnh)..
- Hình 1: Bảng điểm.
- 2 PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Định vị và lọc vùng bảng.
- Để nhận dạng điểm viết tay trên cột điểm, nghiên cứu cần phải định vị các ô ở cột điểm tổng cộng.
- Để định vị các ô, nghiên cứu cần tiếp cận vùng bảng.
- Trước khi định vị vùng bảng, ảnh bảng điểm được tiền xử lý qua các bước:.
- nghiên cứu đưa ảnh về ảnh nhị phân bằng cách dùng ngưỡng thích nghi.
- Sau khi thực hiện các bước tiền xử lý, nghiên cứu sử dụng kỹ thuậtfloodFill.
- Sau khi tìm được vùng lớn nhất, nghiên cứu tiến hành tô màu lại cho ảnh.
- Vùng lớn nhất nghiên cứu nhận được là vùng bảng (Hình 2e)..
- 2.2 Phát hiện góc nghiêng và xoay ảnh Để phát hiện góc nghiêng, nghiên cứu dùng biến đổi Hough nâng cao và nhận về danh sách các đoạn thẳng.
- Nghiên cứu vẽ lại các đoạn thẳng này, sau đó, tìm hình chữ nhật bé nhất bao quanh các đoạn thẳng.
- Góc nghiêng của bảng điểm là góc của hình chữ nhật xoay..
- Nghiên cứu tiến hành xoay ảnh gốc theo tâm quay.
- Nghiên cứu xoay các đoạn thẳng ở bước 2.2 theo góc θ với tâm quay là tâm của hình chữ nhật.
- Các ô chứa điểm cần nhận dạng cùng nằm trong một cột, đều có dạng hình chữ nhật.
- Vì vậy, để định vị các ô này nghiên cứu đưa về bài toán phát hiện các hình chữ nhật trong bảng.
- Nghiên cứu dùng mảng lưu tọa độ x (khoảng 20 giá trị x), sau đó, sắp xếp x tăng dần và loại bỏ phần tử trùng (Bảng 1, Bảng 2).
- Kết quả nhận được là mảng tăng dần theo x tương ứng với các hình chữ nhật trên các cột của bảng điểm.
- Nghiên cứu tiến hành cắt các hình chữ nhật theo vị trí cột cần tìm và thực hiện cắt trên bảng điểm gốc sau khi xoay (Hình 6)..
- Ảnh các ô điểm sau khi cắt (phải) 2.5 Nhận dạng điểm số viết tay.
- Để nhận dạng điểm số viết tay nghiên cứu thực hiện qua 3 giai đoạn là tiền xử lý các ô điểm, trích xuất đặc trưng với GIST và phân lớp với máy học SVM..
- Các ô sau khi được cắt ra từ bảng điểm chứa nhiều nhiễu như đường thẳng đứng, đường thẳng ngang, nhiễu đốm lớn, nét điểm của ô bên trên viết lấn xuống ô bên dưới,… Nghiên cứu tiến hành tiền xử lý xóa các nhiễu đó (Hình 7a).
- Ngoài ra, do áp dụng biến đổi Hough phụ thuộc vào việc chọn ngưỡng M quy định chiều dài đoạn thẳng được phát hiện, với M bằng 20 nghiên cứu làm mất khá.
- nhiều đoạn thẳng nên có dòng trong bảng nghiên cứu không phát hiện được bất cứ đoạn thẳng nào..
- Để giải quyết trường hợp này, nghiên cứu đề ra thuật toán chia một hình chữ nhật thành các hình chữ nhật con nếu nó có chiều cao lớn hơn chiều cao trung bình các hình chữ nhật..
- Sau khi xóa các nhiễu nghiên cứu tiến hành chuẩn hóa kích thước các ảnh.
- Gist thường được sử dụng trong ứng dụng phân tích, tìm kiếm ảnh, nhận dạng mặt người, phân loại kết cấu và phân loại biểu hiện trên khuôn mặt,… Ảnh sau khi được tiền xử lý sẽ được rút.
- Trong chương trình nhận dạng bảng điểm, nghiên cứu chọn n = 4, như vậy, mỗi ảnh sẽ được chia thành 16 vùng ảnh con.
- Máy học SVM thành công hầu hết trong các lĩnh vực nhận dạng các ký tự số viết tay, phân lớp dữ liệu văn bản, lọc thư rác, phân lớp dữ liệu gien,....
- Nghiên cứu tiến hành chạy chương trình kiểm tra tính đúng đắn của chương trình trên nhóm bảng điểm huấn luyện.
- Mỗi bảng điểm có số sinh viên là x thì nghiên cứu nhận được đúng x ô điểm có thứ tự đúng như trên bảng điểm..
- Trên nhóm bảng điểm nhận dạng, nghiên cứu nhận thấy rằng có 2/187 ảnh bảng điểm thiếu ô và 4/187 ảnh thừa ô.
- Nguyên nhân dẫn đến thừa ô là do nghiên cứu lọc vùng lớn nhất bằng kỹ thuật floodFill nên những bảng điểm nào có vùng lân cận vùng bảng chứa đường thẳng liên thông với vùng bảng thì sẽ tạo thêm 1 dòng.
- Tương tự như thừa ô, các bảng điểm thiếu ô thiếu đúng một ô là do dòng đầu của bảng không có dòng tiêu đề (các bảng điểm gồm 2 trang, trường hợp nhắc đến là bảng ở trang 2 - Hình 11b)..
- a) Minh họa bảng điểm bị thừa ô b) Minh họa bảng điểm bị thiếu ô c) Minh họa bảng điểm không thừa/ thiếu ô Hình 11: Các bảng điểm trong trường hợp thừa và thiếu ô.
- 3.2 Nhận dạng điểm viết tay.
- Sau bước định vị ô trên nhóm bảng điểm huấn luyện, nghiên cứu nhận được 8319 ô chứa điểm (ảnh ô điểm), trong đó, điểm 0 có 19 ảnh, điểm 1 có 50 ảnh, điểm 2 có 112 ảnh, điểm 3 có 262 ảnh, điểm 4 có 414 ảnh, điểm 5 có 1061 ảnh, điểm 6 có 1503 ảnh, điểm 7 có 1790 ảnh, điểm 8 có 1621 ảnh, điểm 9 có 911 ảnh, điểm 10 có 181 ảnh và cuối cùng là “v” có 395 ảnh..
- Dựa vào số lượng điểm theo lớp, nghiên cứu tiến hành lấy 2/3 trong tổng số ảnh trên mỗi lớp làm tập huấn luyện (5546 mẫu), 1/3 còn lại làm tập kiểm tra (2223 mẫu).
- Sau đó, nghiên cứu trộn ngẫu nhiên các ảnh trong tập huấn luyện và tập kiểm tra, ghi nhận lại các nhãn các ảnh trong mỗi tập ra filelabel_test.txt và label_train.txt.
- Hình 12: Cấu trúc file nhãn và file đặc trưng Nghiên cứu cũng tiến hành rút trích đặc trưng.
- Cuối cùng, nghiên cứu ghép file nhãn và file đặc trưng thành file huấn luyện (train.txt) và file kiểm tra(test.txt) với cấu trúc như Hình 13:.
- Hình 13: Cấu trúc file train và file test Nghiên cứu đưa file train.txt vào máy học và nhận được mô hình, nghiên cứu sử dụng mô hình này để kiểm tra độ chính xác trên file test.txt.
- Tiếp đến, trên nhóm bảng điểm nhận dạng, nghiên cứu cũng tiến hành rút trích đặc trưng các ô đã được định vị và ghi nhận vào file đặc trưng nhận dạng với cấu trúc như Hình 13, trong đó, các labeli được tạo ngẫu nhiên từ 0 đến 11.
- Với đầu vào là mô hình huấn luyện thu được ở bước huấn luyện, nghiên cứu trả về kết quả nhận dạng là file .xls có cấu trúc mỗi dòng là điểm, có độ chính xác là 97,30%..
- Ngoài ra, nghiên cứu tiến hành thử nghiệm trên nhóm bảng điểm mới (nhóm bảng điểm của các giảng viên chưa có mẫu trong tập huấn luyện), nghiên cứu đạt kết quả rất khả quan với độ chính xác 86,34%..
- Tóm lại, cách tiếp cận của nghiên cứu đạt độ chính xác 97,30% trên nhóm bảng điểm có mẫu.
- trong tập huấn luyện và đạt 86,34% trên nhóm bảng điểm mới.
- Kết quả nhận dạng bảng điểm chưa đạt 100% do nhiều nguyên nhân khách quan và chủ quan.
- Nguyên nhân khách quan do chất lượng ảnh bảng điểm kém, các điểm viết tay chứa nhiều.
- Thời gian thực hiện chương trình nhận dạng phụ thuộc khá nhiều vào chất lượng bảng điểm đầu vào, số lượng các ô điểm trên mỗi bảng điểm, cấu hình máy.
- Nhìn chung, bảng điểm với 30 ô điểm, nghiên cứu nhận dạng mất khoảng 14 đến 17 giây..
- Thời gian thực hiện chương trình tính từ lúc tải một ảnh bảng điểm cho đến khi định vị và cắt các ô.
- Nghiên cứu đo thời gian thực hiện trên nhóm bảng điểm huấn luyện, kết quả thời gian trung bình thực hiện định vị ô một ảnh bảng điểm huấn luyện là 13.40 giây.
- Thời gian trung bình thực hiện một ảnh bảng điểm nhận dạng tính từ thời điểm tải ảnh bảng điểm đến lúc trả về nhãn dự đoán là 14.51 giây..
- Bảng 3: Bảng thống kê thời gian thực hiện trên một bảng điểm.
- 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua thời gian dài thực hiện, nghiên cứu đã xây dựng thành công chương trình nhận dạng bảng điểm đáp ứng được nhu cầu thực tiễn tại Trường Đại học Tây Đô.
- Chương trình bao gồm định vị ô và nhận dạng điểm viết tay.
- Về nhận dạng.
- Về hướng phát triển, chương trình nhận dạng bảng điểm có thể kết hợp nhận dạng điểm viết tay với nhận dạng chữ in gồm mã số sinh viên, mã lớp, mã môn học làm nền tảng cho việc nhận dạng tự động bảng điểm.
- Ngoài ra, chương trình cần mở rộng nhận dạng nhiều cột cũng như nhận dạng biểu mẫu khác, đây là hướng cần đạt đến của nghiên cứu..
- Chân thành cám ơn Thầy Lý Mẽn Tẹn (Trường Đại học Tây Đô) đã cung cấp bảng điểm..
- Phạm Anh Phương, Áp dụng một số chiến lược SVM đa lớp cho bài toán nhận dạng chữ viết tay hạn chế, Tạp chí khoa học Đại học Huế, ISSN số .
- Cao Bá Thành: Nghiên cứu ứng dụng đường cong tham số B-SPLINE vào nhận dạng chữ số viết tay