- LÊ ĐỨC THUẬN TOÁN TIN NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU ẢNH LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH: TOÁN TIN 2010B HÀ NỘI – 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI. - LÊ ĐỨC THUẬN NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU ẢNH LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: TOÁN TIN Người hướng dẫn kỹ thuật: PGS. - NGÔ QUỐC TẠO HÀ NỘI – 2012 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 1 GVHD: PGS. - Ngô Quốc Tạo MC LC MC LC. - 7CHNG 1 TNG QUAN PHÂN TÍCH TRANG TÀI LIU NH. - 91.2. Cu trúc vt lý và cu trúc logic ca nh tài liu. - 121.4. Cu trúc tài liu. - 141.5. H thống phân tích tài liu nh hin nay. - CÁC PHNG PHÁP PHÂN TÍCH TRANG TÀI LIU NH. - 272.1. Top-Down. - 272.1.2. Module phân tích Top-down. - 39 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 2 GVHD: PGS. - Ngô Quốc Tạo 2.4.2. Phân tích Fractal Signature. - CHNG TRÌNH DEMO PHÂN TÍCH TRANG TÀI LIU NH 493.1. - Cu trúc tài liu nh. - 83 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 3 GVHD: PGS. - Nu không có sự quan tâm giúp đỡ ca thy thì tôi khó có thể hoàn thành bn lun văn này. - Xin chân thành cm n! LÊ ĐC THUN Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 4 GVHD: PGS. - Ngô Quốc Tạo DANH MC HÌNH NH Hình 1 – Tài liu nh có cu trúc phc tp Hình 2 – S đ nguyên lý h thống xử lý tài liu Hình 3 – (a): nh gốc. - (b): nh sau khi tách nền Hình 4 – Một nh tài liu bị nghiêng Hình 5 – S đ OCR c bn Hình 6 – Cây mô t cu trúc logic ca một trang tài liu Hình 7 - Ví d nhn dng ca VnDocr Hình 8 - nh đu vào có cu trúc đn gin Hình 9 - Kt qu ca Vndocr vi nh đu vào nh hình Hình 10 - nh có cu trúc vt lý đc phân từng khối rõ ràng Hình 11 - Vndocr nhn dng vào nh đu vào là hình Hình 12 - Đu ra phân vùng chỉ có 1 vùng văn bn Hình 13 - Ommipage đoán nhn sai các vùng văn bn Hình 14 - nh sau khi phân tích bằng finereader đt hiu qu cao Hình 15 - Finereader đã phân vùng đúng các vùng văn bn và nh Hình 16 – Kt qu chiu nghiêng theo phng ngang và đng ca tài liu……….28 Hình 17- Phân tách cột dựa vào phép chiu nghiêng theo phng ngang…………29 Hình 18 – Lc đ chiu đng ca trang tài liu bị nghiêng Hình 19 – Lc đ chiu đng ca một bài báo Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 5 GVHD: PGS. - Ngô Quốc Tạo Hình 20 – Phng pháp Dostrum cho phân tích định dng từ di lên…………...35 Hình 21 – Mô t thut toán tách và nối thích nghi Hình 22 – Mô t thut toán FS Hình 23 – S đ khối h thống phân tích tài liu nh Hình 24 – Một khối chuyển sang bề mặt không gian Hình 25 – Chuyển nh chữ "c" sang bề mặt không gian 3D Hình 26 – Chuyển nh đu vào thành ma trn điểm nh Hình 27 – Giao din chính Hình 28 – Kt qu phân tích Top-down trên tài liu thun văn bn Hình 29 – Phân tích Top-down trên tài liu có câu trúc đn gin Hình 30- Phân tích Top-down trên văn bn có nền phc tp Hình 31 – Phân tích Top-down trên tài liu tài liu nghiêng Hình 32 – Phân tích Top-down trên tài liu nghiêng phc tp Hình 33 – Phân tích Top-down trên tài liu có cu trúc phc tp Hình 34 – Phân tích Top-down trên t ri qung cáo Hình 35- Phân tích Top-Down trên tài liu có cu trúc phc tp Hình 36 – Kt qu phân tích Top-down trên tài liu thun văn bn Hình 37 – Phân tích Top-down trên tài liu có câu trúc đn gin Hình 38 - Phân tích Top-down trên văn bn có nền phc tp Hình 39 – Phân tích Top-down trên tài liu tài liu nghiêng Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 6 GVHD: PGS. - Ngô Quốc Tạo Hình 40 – Phân tích Top-down trên tài liu nghiêng phc tp Hình 41 – Phân tích Top-down trên tài liu có cu trúc phc tp Hình 42 – Phân tích Top-down trên t ri qung cáo Hình 43- Phân tích Top-Down trên tài liu có cu trúc phc tp Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 7 GVHD: PGS. - Kho lu trữ ca t chc s ngày càng nhiều tài liu, để tìm kim đc một tài liu mà bn thân cn ti s phi mt rt nhiều thi gian tra cu. - Khi đã tìm thy tài liu cn thit thì s phi chép li những phn cn dùng trong tài liu. - Mặt khác, những tài liu khi đã để quá lâu s dn ti hin tng chữ m, nhòe, hay trang giy bị nhàu nát, rách… gây khó khăn cho ngi tìm kim. - Li ích ca máy tính trong vic lu trữ là không thể ph nhn, nó có thể lu trữ c ngàn, c tỉ tài liu, từ các t chc bé ti ln chỉ vi kích thc nhỏ gọn. - Chính điều này khin cho kho lu trữ ca các t chc có thể gim nhẹ một cách đáng kể so vi trc đây. - Một vn đề đc mọi ngi quan tâm là làm sao để có thể chuyển đc gn nh toàn bộ dữ liu ca c quan, t chc đang kho lu trữ vào máy tính? Điều này một phn có thể gii quyt đc thông qua vic thuê nhân lực để gõ toàn bộ dữ liu đó vào. - Vy có cách nào để có thể thực hin đc điều này nhanh hn, chính xác hn, đỡ tốn tiền ca hn? Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 8 GVHD: PGS. - Đó là chúng ta bin những tài liu đang lu trữ trong kho này thành những file nh số trong máy tính (điều này có thể làm đc thông qua máy scan). - Nhim v quan trọng nht là làm sao để có thể từ file nh số này ta có thể xử lý đc thông tin trên các phn mềm hin có nh bộ office, open office… Xut phát từ thực t đó, tôi lựa chọn đề tài "Nghiên cứu phương pháp phân tích trang tài liệu ảnh". - Mc đích chính ca đề tài là h thống hóa kin thc về các phng pháp phân tích trang tài liu nh để đa ra các nhn xét, so sánh, đánh giá về các phng pháp phân tích trang tài liu nh. - Lun văn đc chia làm 3 phn vi nội dung nh sau: Chng 1: Nêu khái nim về cu trúc ca một trang tài liu nh và các bài toán liên quan. - Các chng trình phân tích trang tài liu nh hin nay trong nc và trên th gii. - Chng 2: Trình bày các phng pháp phân tích trang tài liu nh, từ đó có c s để so sánh xem phng pháp nào có u điểm, nhc điểm nhiều hn. - Chng 3: Demo chng trình phân tích trang tài liu nh bằng 2 thut toán Top-down và Fractal Signature vi nh đu vào là đa cp xám. - Rt mong nhn đc ý kin đóng góp ca thy cô, đng nghip, bn bè để tôi có thể hoàn thin hn trong tng lai. - Học viên Lê Đc Thun Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 9 GVHD: PGS. - Ngô Quốc Tạo CHNG 1 TNG QUAN PHÂN TÍCH TRANG TÀI LIU NH 1.1. - Khái nim Một nh tài liu bao gm nhiều thực thể vt lý hoặc các vùng nh các khối văn bn, các dòng, các từ, các hình, các bng và nền. - nh tài liu cũng có những nhãn chc năng nh các câu, các tiêu đề, chú thích. - nh tài liu đc to ra từ các tài liu vt lý bằng cách số hóa nh dùng máy quét hoặc máy nh kỹ thut số. - Nhiều văn bn nh báo, tp chí và tài liều qung cáo có cha cu trúc phc tp do các vị trí ca các hình, các tiêu đề, các nền , định dng văn bn… Hình 1 - Tài liu nh có cu trúc phc tp Một ngi đọc có thể sử dng các du hiu để thêm vào thông tin nh bối cnh, thông tin về ngôn ngữ/ kịch bn, cùng vi quá trình lý lun phc tp để gii Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 10 GVHD: PGS. - Ngô Quốc Tạo mã nội dung ca tài liu. - Phân tích tài liu tự động vi những tài liu phc tp là một nhim v vô cùng khó khăn. - Cu trúc vt lý và cu trúc logic ca nh tài liu Sự xắp xp vt lý ca một trang tài liu đề cp đn ranh gii vt lý và các biên ca các khu vực trong nh tài liu. - Quá trình phân tích bố trí tài liu nhằm mc đích để phân tách một hình nh tài liu vào các khu vực đng nht, nh nh, hình nền, khối văn bn, các dòng văn bn, các từ, các ký tự … Các thut toán để phân tích có thể đc phân loi ch yu dựa vào ba nhóm tip cn. - Top-down: Bắt đu từ những vùng ln nht chc c trang tài liu sau đó liên tc phân chia thành các vùng nhỏ hn. - Ngoài cu trúc vt lý, các trang tài liu còn cha đựng nhiều thông tin về ngữ cnh và nội dung nh các tiêu đề, đon văn, đề mc,… và mỗi vùng nội dung này li đc gán các nhãn logic hay nhãn theo chc năng tng ng, khác bit hoàn toàn trong các nhãn ca cu trúc vt lý. - Hu ht các tài liu đều có một quy tắc đọc để có thể hiểu ht nội dung ca tài liu. - Tp hp tt c các yu tố logic và chc năng trong một tài liu và mối quan h giữa chúng đc gọi là cu trúc logic ca tài liu. - Các phân tích c cu hp lý ca một tài liu thng đc thực hin trên kt qu ca giai đon phân tích. - Tuy nhiên trong nhiều văn bn phc tp, vic phân tích s yêu cu một số thông tin hp lý về vùng để thực hin phân đon chính xác. - Hu ht các nh tài liu đều có nhiu do quá trình thu nhn nh gây ra (môi trng, cht lng máy quét), vì th trong quá trình xây dựng các thut toán phân Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 11 GVHD: PGS. - Ngô Quốc Tạo tích cn loi bỏ các nhiu này và công vic này thng đc tin hành trc khi bắt đu phân tích bố cc hay cu trúc gọi là tiền xử lý. - S đ nguyên lý ca một h thống tự động phân tích tài liu nh sau: Hình 2 – S đ nguyên lý h thống xử lý tài liu 1.3. - Phân tách nền trong nh tài liu - Xử lý độ nghiêng ca nh trong qus trình quét nh. - Lọc nhiu (noise romaval): Nhiu luôn là một vn đề trong hu ht các bài toán đọc hiểu tài liu. - Nhiu sinh ra không chỉ do quá trình scan nh mà còn bao gm các nhiu trắng gây ra từ chính sensor hay các mch thu nhn trong các máy thu nhn nh số, nhiu muối, nhiu ht tiêu, sự lng tử hóa… Nhiu có thể Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 12 GVHD: PGS. - Tách nền (Background separation): Một trong những vn đề quan trong trong sự tìm hiểu cu trúc tài liu là tách nền từ một nền nh. - Ta có thể tách nền bằng một số kỹ thut nh sau. - Xác định góc nghiêng Do quá trình thu nhn nh (nh đặt lch tài liu khi scan. - nh tài liu thu đc rt có thể bị nghiêng, tc trc ca các dòng văn bn không song song vi trc ngang (hình 7). - Vic xác định đc góc nghiêng và xoay li tài liu là một khâu rt quan trọng nh hng ti hiu qu trong một số Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 13 GVHD: PGS. - Ngô Quốc Tạo thut toán phân tích. - Ví d nh các thut toán dựa theo biểu đ sau phép chiu nghiêng để tin hành phân tích thì s hoàn toàn tht bi nu văn bn bị nghiêng. - Tuy nhiên có thể tự động c lng đc chính xác góc nghiêng ca nh tài liu là một bài toán khó. - Có nhiều kỹ thut để có thể xác định đc góc nghiêng ca tài liu, điểm chung trong hu ht các thut toán là xác định góc nghiêng bằng vic xác định hng ca các dòng văn bn dựa vào vị trí một số ký tự trong tài liu. - Hình 4 – Một nh tài liu bị nghiêng Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 14 GVHD: PGS. - Ngô Quốc Tạo 1.4. - Cu trúc tài liu Là sự hiểu bit về cu trúc vi mô t logic ca các vùng hoặc các đặc tính vt lý. - Định nghĩa: Cu trúc logic ca tài liu nh là một ánh x từ các vùng vt lý trong trang tài liu ti những nhãn logic. - Phân tích cu trúc tài liu là tin trình phân định các nhãn logic ti các vùng vt lý đc định nghĩa trong quá trình phân tích trang. - Các nhãn logic bao gm tiêu đề, abstract, sub-title, đon, câu, từ, header, footer, chú thích, số trang … Mặc dù tin trình phân tích trang logic đc định nghĩa là cho phép phân tích trang, trong thực t, hai tin trình có thể đc kt hp trong một tin trình tìm hiểu tài liu duy nht. - Một trong những phng pháp để định nghĩa cu trúc logic ca một tài liu là thit lp các vùng ca tài liu nh là một chuỗi các ký hiu. - Một văn phm đc định nghĩa bi nhiều các ký hiu mà đc mô t bi cu trúc logic ca một tài liu bt kỳ. - Tin trình ca phân tích cu trúc là sự tính toán, phân tích (thit lp các nguyên tắc) để to ra các chuỗi ký tự đã đc quan sát. - Vn đề phát sinh khi có nhiều phân tích tng ng vi một tài liu và khi đó ta có thể lựa chọn. - Sự phân tích tốt nht đc định nghĩa bằng cách sử dng giá ca các chc năng đc đa vào. - Cũng có thể sử dng phng pháp ngu nhiên tùy thuộc vào các quy tắc đc sử dng trong thuộc tính cuối. - Các h thống nguyên tắc c bn đc đa ra để xác định cu trúc logic ca tài liu. - Các quy tắc trong một h thống quy tắc c bn có thể biểu thị các hành động đc đa vào trong tình huống c thể hoặc phm vi hiểu bit. - Cách tip cn này hot động tốt ngay c đối vi các tài liu phc tp nh các t báo
Xem thử không khả dụng, vui lòng xem tại trang nguồn hoặc xem
Tóm tắt