« Home « Kết quả tìm kiếm

Nghiên cứu phương pháp phân tích trang tài liệu ảnh


Tóm tắt Xem thử

- LÊ ĐỨC THUẬN TOÁN TIN NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU ẢNH LUẬN VĂN THẠC SĨ KỸ THUẬT CHUYÊN NGÀNH: TOÁN TIN 2010B HÀ NỘI – 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- LÊ ĐỨC THUẬN NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH TRANG TÀI LIỆU ẢNH LUẬN VĂN THẠC SĨ KỸ THUẬT Chuyên ngành: TOÁN TIN Người hướng dẫn kỹ thuật: PGS.
- NGÔ QUỐC TẠO HÀ NỘI – 2012 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 1 GVHD: PGS.
- Ngô Quốc Tạo MC LC MC LC.
- 7CHNG 1 TNG QUAN PHÂN TÍCH TRANG TÀI LIU NH.
- 91.2. Cu trúc vt lý và cu trúc logic ca nh tài liu.
- 121.4. Cu trúc tài liu.
- 141.5. H thống phân tích tài liu nh hin nay.
- CÁC PHNG PHÁP PHÂN TÍCH TRANG TÀI LIU NH.
- 272.1. Top-Down.
- 272.1.2. Module phân tích Top-down.
- 39 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 2 GVHD: PGS.
- Ngô Quốc Tạo 2.4.2. Phân tích Fractal Signature.
- CHNG TRÌNH DEMO PHÂN TÍCH TRANG TÀI LIU NH 493.1.
- Cu trúc tài liu nh.
- 83 Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 3 GVHD: PGS.
- Nu không có sự quan tâm giúp đỡ ca thy thì tôi khó có thể hoàn thành bn lun văn này.
- Xin chân thành cm n! LÊ ĐC THUN Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 4 GVHD: PGS.
- Ngô Quốc Tạo DANH MC HÌNH NH Hình 1 – Tài liu nh có cu trúc phc tp Hình 2 – S đ nguyên lý h thống xử lý tài liu Hình 3 – (a): nh gốc.
- (b): nh sau khi tách nền Hình 4 – Một nh tài liu bị nghiêng Hình 5 – S đ OCR c bn Hình 6 – Cây mô t cu trúc logic ca một trang tài liu Hình 7 - Ví d nhn dng ca VnDocr Hình 8 - nh đu vào có cu trúc đn gin Hình 9 - Kt qu ca Vndocr vi nh đu vào nh hình Hình 10 - nh có cu trúc vt lý đc phân từng khối rõ ràng Hình 11 - Vndocr nhn dng vào nh đu vào là hình Hình 12 - Đu ra phân vùng chỉ có 1 vùng văn bn Hình 13 - Ommipage đoán nhn sai các vùng văn bn Hình 14 - nh sau khi phân tích bằng finereader đt hiu qu cao Hình 15 - Finereader đã phân vùng đúng các vùng văn bn và nh Hình 16 – Kt qu chiu nghiêng theo phng ngang và đng ca tài liu……….28 Hình 17- Phân tách cột dựa vào phép chiu nghiêng theo phng ngang…………29 Hình 18 – Lc đ chiu đng ca trang tài liu bị nghiêng Hình 19 – Lc đ chiu đng ca một bài báo Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 5 GVHD: PGS.
- Ngô Quốc Tạo Hình 20 – Phng pháp Dostrum cho phân tích định dng từ di lên…………...35 Hình 21 – Mô t thut toán tách và nối thích nghi Hình 22 – Mô t thut toán FS Hình 23 – S đ khối h thống phân tích tài liu nh Hình 24 – Một khối chuyển sang bề mặt không gian Hình 25 – Chuyển nh chữ "c" sang bề mặt không gian 3D Hình 26 – Chuyển nh đu vào thành ma trn điểm nh Hình 27 – Giao din chính Hình 28 – Kt qu phân tích Top-down trên tài liu thun văn bn Hình 29 – Phân tích Top-down trên tài liu có câu trúc đn gin Hình 30- Phân tích Top-down trên văn bn có nền phc tp Hình 31 – Phân tích Top-down trên tài liu tài liu nghiêng Hình 32 – Phân tích Top-down trên tài liu nghiêng phc tp Hình 33 – Phân tích Top-down trên tài liu có cu trúc phc tp Hình 34 – Phân tích Top-down trên t ri qung cáo Hình 35- Phân tích Top-Down trên tài liu có cu trúc phc tp Hình 36 – Kt qu phân tích Top-down trên tài liu thun văn bn Hình 37 – Phân tích Top-down trên tài liu có câu trúc đn gin Hình 38 - Phân tích Top-down trên văn bn có nền phc tp Hình 39 – Phân tích Top-down trên tài liu tài liu nghiêng Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 6 GVHD: PGS.
- Ngô Quốc Tạo Hình 40 – Phân tích Top-down trên tài liu nghiêng phc tp Hình 41 – Phân tích Top-down trên tài liu có cu trúc phc tp Hình 42 – Phân tích Top-down trên t ri qung cáo Hình 43- Phân tích Top-Down trên tài liu có cu trúc phc tp Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 7 GVHD: PGS.
- Kho lu trữ ca t chc s ngày càng nhiều tài liu, để tìm kim đc một tài liu mà bn thân cn ti s phi mt rt nhiều thi gian tra cu.
- Khi đã tìm thy tài liu cn thit thì s phi chép li những phn cn dùng trong tài liu.
- Mặt khác, những tài liu khi đã để quá lâu s dn ti hin tng chữ m, nhòe, hay trang giy bị nhàu nát, rách… gây khó khăn cho ngi tìm kim.
- Li ích ca máy tính trong vic lu trữ là không thể ph nhn, nó có thể lu trữ c ngàn, c tỉ tài liu, từ các t chc bé ti ln chỉ vi kích thc nhỏ gọn.
- Chính điều này khin cho kho lu trữ ca các t chc có thể gim nhẹ một cách đáng kể so vi trc đây.
- Một vn đề đc mọi ngi quan tâm là làm sao để có thể chuyển đc gn nh toàn bộ dữ liu ca c quan, t chc đang  kho lu trữ vào máy tính? Điều này một phn có thể gii quyt đc thông qua vic thuê nhân lực để gõ toàn bộ dữ liu đó vào.
- Vy có cách nào để có thể thực hin đc điều này nhanh hn, chính xác hn, đỡ tốn tiền ca hn? Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 8 GVHD: PGS.
- Đó là chúng ta bin những tài liu đang lu trữ trong kho này thành những file nh số trong máy tính (điều này có thể làm đc thông qua máy scan).
- Nhim v quan trọng nht là làm sao để có thể từ file nh số này ta có thể xử lý đc thông tin trên các phn mềm hin có nh bộ office, open office… Xut phát từ thực t đó, tôi lựa chọn đề tài "Nghiên cứu phương pháp phân tích trang tài liệu ảnh".
- Mc đích chính ca đề tài là h thống hóa kin thc về các phng pháp phân tích trang tài liu nh để đa ra các nhn xét, so sánh, đánh giá về các phng pháp phân tích trang tài liu nh.
- Lun văn đc chia làm 3 phn vi nội dung nh sau: Chng 1: Nêu khái nim về cu trúc ca một trang tài liu nh và các bài toán liên quan.
- Các chng trình phân tích trang tài liu nh hin nay  trong nc và trên th gii.
- Chng 2: Trình bày các phng pháp phân tích trang tài liu nh, từ đó có c s để so sánh xem phng pháp nào có u điểm, nhc điểm nhiều hn.
- Chng 3: Demo chng trình phân tích trang tài liu nh bằng 2 thut toán Top-down và Fractal Signature vi nh đu vào là đa cp xám.
- Rt mong nhn đc ý kin đóng góp ca thy cô, đng nghip, bn bè để tôi có thể hoàn thin hn trong tng lai.
- Học viên Lê Đc Thun Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 9 GVHD: PGS.
- Ngô Quốc Tạo CHNG 1 TNG QUAN PHÂN TÍCH TRANG TÀI LIU NH 1.1.
- Khái nim Một nh tài liu bao gm nhiều thực thể vt lý hoặc các vùng nh các khối văn bn, các dòng, các từ, các hình, các bng và nền.
- nh tài liu cũng có những nhãn chc năng nh các câu, các tiêu đề, chú thích.
- nh tài liu đc to ra từ các tài liu vt lý bằng cách số hóa nh dùng máy quét hoặc máy nh kỹ thut số.
- Nhiều văn bn nh báo, tp chí và tài liều qung cáo có cha cu trúc phc tp do các vị trí ca các hình, các tiêu đề, các nền , định dng văn bn… Hình 1 - Tài liu nh có cu trúc phc tp Một ngi đọc có thể sử dng các du hiu để thêm vào thông tin nh bối cnh, thông tin về ngôn ngữ/ kịch bn, cùng vi quá trình lý lun phc tp để gii Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 10 GVHD: PGS.
- Ngô Quốc Tạo mã nội dung ca tài liu.
- Phân tích tài liu tự động vi những tài liu phc tp là một nhim v vô cùng khó khăn.
- Cu trúc vt lý và cu trúc logic ca nh tài liu Sự xắp xp vt lý ca một trang tài liu đề cp đn ranh gii vt lý và các biên ca các khu vực trong nh tài liu.
- Quá trình phân tích bố trí tài liu nhằm mc đích để phân tách một hình nh tài liu vào các khu vực đng nht, nh nh, hình nền, khối văn bn, các dòng văn bn, các từ, các ký tự … Các thut toán để phân tích có thể đc phân loi ch yu dựa vào ba nhóm tip cn.
- Top-down: Bắt đu từ những vùng ln nht chc c trang tài liu sau đó liên tc phân chia thành các vùng nhỏ hn.
- Ngoài cu trúc vt lý, các trang tài liu còn cha đựng nhiều thông tin về ngữ cnh và nội dung nh các tiêu đề, đon văn, đề mc,… và mỗi vùng nội dung này li đc gán các nhãn logic hay nhãn theo chc năng tng ng, khác bit hoàn toàn trong các nhãn ca cu trúc vt lý.
- Hu ht các tài liu đều có một quy tắc đọc để có thể hiểu ht nội dung ca tài liu.
- Tp hp tt c các yu tố logic và chc năng trong một tài liu và mối quan h giữa chúng đc gọi là cu trúc logic ca tài liu.
- Các phân tích c cu hp lý ca một tài liu thng đc thực hin trên kt qu ca giai đon phân tích.
- Tuy nhiên trong nhiều văn bn phc tp, vic phân tích s yêu cu một số thông tin hp lý về vùng để thực hin phân đon chính xác.
- Hu ht các nh tài liu đều có nhiu do quá trình thu nhn nh gây ra (môi trng, cht lng máy quét), vì th trong quá trình xây dựng các thut toán phân Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 11 GVHD: PGS.
- Ngô Quốc Tạo tích cn loi bỏ các nhiu này và công vic này thng đc tin hành trc khi bắt đu phân tích bố cc hay cu trúc gọi là tiền xử lý.
- S đ nguyên lý ca một h thống tự động phân tích tài liu nh sau: Hình 2 – S đ nguyên lý h thống xử lý tài liu 1.3.
- Phân tách nền trong nh tài liu - Xử lý độ nghiêng ca nh trong qus trình quét nh.
- Lọc nhiu (noise romaval): Nhiu luôn là một vn đề trong hu ht các bài toán đọc hiểu tài liu.
- Nhiu sinh ra không chỉ do quá trình scan nh mà còn bao gm các nhiu trắng gây ra từ chính sensor hay các mch thu nhn trong các máy thu nhn nh số, nhiu muối, nhiu ht tiêu, sự lng tử hóa… Nhiu có thể Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 12 GVHD: PGS.
- Tách nền (Background separation): Một trong những vn đề quan trong trong sự tìm hiểu cu trúc tài liu là tách nền từ một nền nh.
- Ta có thể tách nền bằng một số kỹ thut nh sau.
- Xác định góc nghiêng Do quá trình thu nhn nh (nh đặt lch tài liu khi scan.
- nh tài liu thu đc rt có thể bị nghiêng, tc trc ca các dòng văn bn không song song vi trc ngang (hình 7).
- Vic xác định đc góc nghiêng và xoay li tài liu là một khâu rt quan trọng nh hng ti hiu qu trong một số Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 13 GVHD: PGS.
- Ngô Quốc Tạo thut toán phân tích.
- Ví d nh các thut toán dựa theo biểu đ sau phép chiu nghiêng để tin hành phân tích thì s hoàn toàn tht bi nu văn bn bị nghiêng.
- Tuy nhiên có thể tự động c lng đc chính xác góc nghiêng ca nh tài liu là một bài toán khó.
- Có nhiều kỹ thut để có thể xác định đc góc nghiêng ca tài liu, điểm chung trong hu ht các thut toán là xác định góc nghiêng bằng vic xác định hng ca các dòng văn bn dựa vào vị trí một số ký tự trong tài liu.
- Hình 4 – Một nh tài liu bị nghiêng Luận văn tốt nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh Học viên: Lê Đức Thuận 14 GVHD: PGS.
- Ngô Quốc Tạo 1.4.
- Cu trúc tài liu Là sự hiểu bit về cu trúc vi mô t logic ca các vùng hoặc các đặc tính vt lý.
- Định nghĩa: Cu trúc logic ca tài liu nh là một ánh x từ các vùng vt lý trong trang tài liu ti những nhãn logic.
- Phân tích cu trúc tài liu là tin trình phân định các nhãn logic ti các vùng vt lý đc định nghĩa trong quá trình phân tích trang.
- Các nhãn logic bao gm tiêu đề, abstract, sub-title, đon, câu, từ, header, footer, chú thích, số trang … Mặc dù tin trình phân tích trang logic đc định nghĩa là cho phép phân tích trang, trong thực t, hai tin trình có thể đc kt hp trong một tin trình tìm hiểu tài liu duy nht.
- Một trong những phng pháp để định nghĩa cu trúc logic ca một tài liu là thit lp các vùng ca tài liu nh là một chuỗi các ký hiu.
- Một văn phm đc định nghĩa bi nhiều các ký hiu mà đc mô t bi cu trúc logic ca một tài liu bt kỳ.
- Tin trình ca phân tích cu trúc là sự tính toán, phân tích (thit lp các nguyên tắc) để to ra các chuỗi ký tự đã đc quan sát.
- Vn đề phát sinh khi có nhiều phân tích tng ng vi một tài liu và khi đó ta có thể lựa chọn.
- Sự phân tích tốt nht đc định nghĩa bằng cách sử dng giá ca các chc năng đc đa vào.
- Cũng có thể sử dng phng pháp ngu nhiên tùy thuộc vào các quy tắc đc sử dng trong thuộc tính cuối.
- Các h thống nguyên tắc c bn đc đa ra để xác định cu trúc logic ca tài liu.
- Các quy tắc trong một h thống quy tắc c bn có thể biểu thị các hành động đc đa vào trong tình huống c thể hoặc phm vi hiểu bit.
- Cách tip cn này hot động tốt ngay c đối vi các tài liu phc tp nh các t báo

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt