« Home « Kết quả tìm kiếm

Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không


Tóm tắt Xem thử

- LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG TRẦN LÂM QUÂN HÀ NỘI 2006 TRẦN LÂM QUÂN CÔNG NGHỆ THÔNG TIN 2004-2006 Hà Nội 2006 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI.
- LUẬN VĂN THẠC SĨ KHOA HỌC TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: TRẦN LÂM QUÂN Người hướng dẫn khoa học: TS.
- NGUYỄN KIM ANH HÀ NỘI 2006 Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 1 -LỜI CẢM ƠN Lời đầu của luận văn, em xin chân thành cảm ơn Thầy Cô trong khoa Công nghệ Thông tin trường Đại học Bách khoa Hà Nội đã tận tình chỉ bảo, truyền đạt kiến thức cho em trong suốt hai năm qua.
- Hà Nội, ngày 01 tháng 11 năm 2006 Tác giả Trần Lâm Quân Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 2 - MỤC LỤC trangLời cảm ơn 1Mục lục 2Danh mục các bảng 5Danh mục các hình vẽ 6Lời nói đầu 7Chương 1: Tổng quan về dịch máy I) Định nghĩa dịch máy 11II) Vai trò của dịch máy 12III) Lịch sử dịch máy 131) Giai đoạn Giai đoạn Giai đoạn Giai đoạn 1990 - hiện nay 17IV) Phân loại dịch máy 18I) Phạm vi của luận văn 19VI) Kết chương 20Chương 2: Các phương pháp dịch máy I) Vấn đề ngôn ngữ trong dịch máy 21II) Kho ngữ liệu 24III) Dịch trực tiếp 25IV) Dịch chuyển đổi 271) Dịch chuyển đổi cú pháp 272) Dịch chuyển đổi cú pháp + phân giải ngữ nghĩa 29 Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 3 -3) Quy trình dịch chuyển đổi 30V) Dịch máy dựa trên thống kê (Statistical Machine Translation) 29VI) Dịch máy dựa trên mẫu ví dụ (Example-Based Machine Translation) 32VII) Dịch dựa trên cơ sở tri thức 33VIII) Dịch dựa trên ngữ liệu 33IX) Dịch liên ngữ 331) Ưu điểm 342) Nhược điểm 353) Phân hoạch liên ngữ 36X) Kết chương 38Chương 3: Từ điển hàng không I) Khảo sát 391) Tập hợp các từ điển Anh - Việt hàng không (dạng sách) 402) Tập hợp các từ điển Anh - Việt thông dụng (dạng phần mềm) 41II) Biên tập để xây dựng kho ngữ liệu 1) Nhập liệu (từ, nghĩa từ, từ xem thêm) 422) Phân nhóm từ 423) Biên tập 43III) Lựa chọn mô hình, thiết kế giải thuật, giao diện và viết chương trình 44IV) Thiết kế và viết mã 49V) Xin ý kiến đóng góp của các chuyên gia và người sử dụng.
- Lần đầu tiên, việc sử dụng máy tính điện tử để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác được đề cập đến trong những cuộc thảo luận giữa Andrew D.
- được thể hiện ở nhiều ngôn ngữ khác nhau.
- Vào thời điểm sức mạnh của máy tính đã được khẳng định, bài toán sử dụng máy tính để Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 8 -chuyển đổi tri thức được viết bằng ngôn ngữ này sang một ngôn ngữ khác được đặt ra.
- Trong khoảng 50 năm, có rất nhiều phương pháp dịch máy đã được giới thiệu và triển khai.
- Ngoài ra, không thể không kể đến tính nhập nhằng - vốn là bản chất của ngôn ngữ tự nhiên.
- Ngôn ngữ tự nhiên là một thực thể phức tạp.
- Đối với tiếng Việt, vấn đề xây dựng một hệ dịch máy để tự động dịch từ tiếng Anh sang tiếng Việt đã được đặt ra từ lâu.
- Điều kiện tiên quyết trong việc xây dựng một chương trình dịch là việc xây dựng cơ sở tri thức về ngôn ngữ cho hệ dịch.
- Chất lượng dịch phụ thuộc vào việc cập nhật dữ liệu cho cơ Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 9 -sở tri thức, mà công việc này đòi hỏi đầu tư rất lớn và thời gian thực hiện công việc là lâu dài.
- Với mong muốn học hỏi, chúng tôi mạnh dạn chọn đề tài “Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không” cho luận văn của mình.
- Chương 2: Các phương pháp dịch máy Khái quát căn bản lý thuyết về ngôn ngữ học áp dụng trong dịch máy.
- Chương 3: Từ điển hàng không Một cách hình thức, có thể ví dữ liệu trong từ điển như thành phần xương sống của thử nghiệm dịch máy áp dụng trên tài liệu hàng không.
- Trong chương này, chúng tôi trình bày chi tiết về chức năng, cách thức Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 10 -hoạt động, các kỹ thuật được sử dụng cơ bản để tạo nên phần mềm từ điển và một thử nghiệm dịch tự động.
- Do miền xác định của luận văn: “Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không”, nên các dữ liệu này được trích xuất các web site ngành hàng không (ICAO, Boeing và Airbus).
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 11 -CHƯƠNG 1: TỔNG QUAN VỀ DỊCH MÁY I) Định nghĩa dịch máy Khái niệm dịch máy đã được nhiều tác giả trong lĩnh vực xử lý ngôn ngữ tự nhiên định nghĩa, tuy có một vài điểm khác biệt nhưng, hầu hết đều tương đương với định nghĩa sau: Một hệ dịch máy (Machine Translation System) là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác.
- Ngôn ngữ của văn bản cần dịch còn gọi là ngôn ngữ nguồn, ngôn ngữ của bản dịch được gọi là ngôn ngữ đích.
- Sơ đồ sau thể hiện vị trí của hệ dịch máy trong tiến trình dịch tài liệu.
- Hình 1.1: Quá trình xử lý tài liệu dịch máy.
- Văn bản được phân tích Kết quả dịch máy Cơ sở tri thức Văn bản nguồn Văn bản đích Hiệu đính Dịch máy Dịch máyCon người Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 12 -Đầu vào của một hệ dịch máy thường là một văn bản viết trong ngôn ngữ nguồn, quá trinh dịch có thể chia thành hai giai đoạn, đầu tiên, văn bản được phân tích thành các thành phần, sau đó được dịch thành văn bản ở dạng ngôn ngữ đích.
- Dịch máy đã chứng tỏ nó có hiệu quả so với chi phí bỏ ra (rẻ hơn đáng kể) khi cần dịch khối lượng lớn và/hoặc dịch nhanh những tài liệu chuyên môn (kỹ thuật), cũng như trong nhiều tình huống khác (có nhiều từ lặp đi lặp lại).
- Trái lại, khi cần dịch những văn bản không có nhiều từ lặp lại và sử dụng ngôn ngữ tinh vi và rất phức tạp (ví dụ như văn học và luật), và thậm chí cả khi cần dịch những văn bản với những chủ đề đặc biệt, thì vẫn không có gì có thể thay thế được người dịch [1].
- Dịch máy cũng có thể phục vụ việc tìm kiếm và dịch những từ chính hoặc cung cấp một bản dịch thô của các bản tóm tắt bản gốc (đôi khi có thể Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 13 -gọi là “những ý chính.
- Với trường hợp cụ thể này, một hệ dịch máy chất lượng bình thường đáp ứng tốt hơn một người phiên dịch giỏi.
- Do vậy, nhu cầu cần có các hệ dịch máy là tất yếu.
- Nếu xây dựng hệ dịch máy thành công, đây sẽ là công cụ giúp con người tiếp cận với kho tri thức viết bằng các ngôn ngữ khác.
- Có thể chia sự phát triển của ngành dịch máy thành ba Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 14 -thời kỳ, kể từ năm 1949 với những ý tưởng sơ khai về một hệ dịch máy cho đến hiện nay (2006) với sự ra đời của nhiều trình dịch máy tương đối hoàn thiện, đã có ứng dụng vào cuộc sống.
- Năm 1933, đã có hai phát minh được cấp bằng sáng chế liên quan đến việc xây dựng các thiết bị dịch ngôn ngữ.
- Khái niệm dịch máy (machine translation) được Warren Weaver đề ra vào năm 1949.
- Với khả năng giới hạn của Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 15 -máy tính trong những năm 1950-1960 và việc nghiên cứu lý thuyết xử lý ngôn ngữ tự nhiên còn chập chững, các kết quả thu được trong lĩnh vực dịch tự động thời kỳ này không đạt được kết quả khả quan.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 16 -3) Giai đoạn Giai đoạn phục hồi của dịch máy.
- Vào đầu những năm 1970, sau một số thành công trong nghiên cứu về lý thuyết xử lý ngôn ngữ tự nhiên và sức mạnh của máy tính cũng tăng lên đáng kể (với sự ra đời của mạch tích hợp), nhiều trung tâm nghiên cứu bắt đầu quay lại đầu tư vào dịch máy.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 17.
- Theo ước tính của John Hutchins, vào năm 2001, có khoảng 1000 phần mềm dịch tự động các ngôn ngữ được bán trên thị trường.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 18 -Nhắm tới thị trường về công nghệ tri thức, nhiều tập đoàn ở Mỹ và Châu Âu đã đầu tư rất lớn vào các dự án về xử lý ngôn ngữ tự nhiên, nhận dạng và mô phỏng.
- Các chương trình dịch tự động được nghiên cứu tại Việt Nam chủ yếu hướng vào việc dịch tự động Anh-Việt do có sẵn khá nhiều kết quả nghiên cứu về tiếng Anh, dịch từ tiếng Anh sang ngôn ngữ khác để có thể áp dụng vào chương trình.
- Với tiêu chí phân loại dịch máy theo mục đích hệ dịch, Hutchins và Somers chia các hệ dịch máy thành ba loại.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 19.
- [5] [6] V) Phạm vi của luận văn Phạm vi nghiên cứu của luận văn là tìm hiểu về dịch máy và dịch tự động trong tài liệu hàng không.
- Luận văn hướng tới việc ứng dụng mô hình xây dựng được vào bài toán dịch tự động Anh-Việt áp dụng cho tài liệu hàng không, bằng cách xây dựng thử nghiệm một trình dịch máy từ các từ điển Anh-Việt hàng không hiện có.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 20 -VI) Kết chương Ứng dụng thử nghiệm nào – cũng cần dựa trên một nền tảng lý thuyết khoa học và chắc chắn, trong chương 2, luận văn sẽ khảo cứu căn bản lý thuyết về dịch máy, trong đó đặt trọng tâm vào các phương pháp dịch máy.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 21 -CHƯƠNG 2: CÁC PHƯƠNG PHÁP DỊCH MÁY Có nhiều quan điểm phân loại các hệ dịch máy khác nhau, thông dụng nhất là phân loại theo mục đích của hệ dịch (dịch tự động hoàn toàn, dịch bán tự động, trợ dịch, từ điển.
- Dịch trực tiếp • Dịch dựa trên chuyển đổi • Dịch dựa trên ngôn ngữ trung gian (liên ngữ) Các triển khai hệ thống dịch trong thực tế không phải luôn luôn sử dụng chỉ một hướng tiếp cận, nhiều hệ thống kết hợp các phương pháp tiếp cận khác nhau để đạt được kết quả tốt nhất.
- Cái khó nằm ở chỗ Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 22 -làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 23 -Nhưng cũng có những thành ngữ như “keep an eye on something” (để mắt vào), trình dịch có thể hoàn toàn hiểu được nếu gắn nghĩa theo cách thông thường và ghép nối lại.
- Ví dụ: studying và studied Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 24 -không tới”, “sao không bảo nó tới”, “sao không tới bảo nó” .v.v.
- [13] II) Kho ngữ liệu Ngữ liệu là các nguồn dữ liệu được sử dụng cho các bài toán trong lĩnh vực xử lý ngôn ngữ tự nhiên.
- Các ngữ liệu trong đó không chứa các thông tin về ngôn ngữ được gọi là ngữ liệu thô (hay ngữ liệu trắng).
- Có thể xem ngữ liệu như một cơ sở tri thức thô, trong đó, thông tin được thêm Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 25 -vào để chuẩn bị cho việc trích chọn tri thức về sau được dễ dàng hơn.
- Với nguồn ngữ liệu càng lớn thì việc trích chọn các tri thức về ngôn ngữ càng chính xác và đầy đủ hơn.
- Để trích chọn thông tin về ngôn ngữ trên các nguồn ngữ liệu chúng ta thường dùng các giải thuật học.
- Các giải thuật học có thể sử dụng thông tin trong các ngữ liệu để rút ra (một cách tự động hay bán tự động) tập các luật cần thiết cho xử lý ngôn ngữ tự nhiên.
- Dịch trực tiếp là phương pháp phát triển cho cặp ngôn ngữ cụ thể, tiến trình dịch là một quá trình biến đổi từ ngôn ngữ nguồn sang ngôn ngữ đích dựa trên từ điển song ngữ và một số quy tắc từ vựng kết hợp với một số quy tắc xử lý ngữ pháp đơn giản.
- Ngôn ngữ nguồn Hình thái & ngữ nghĩa Hình thái & nghĩa thích hợp nhất Ngôn ngữ đích Từ điển song ngữ Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 26 -Dịch trực tiếp sẽ thực hiện dịch ngôn ngữ bằng cách thay thế những từ trong ngôn ngữ nguồn với những từ trong ngôn ngữ đích một cách máy móc.
- Biến thể của dịch trực tiếp, áp dụng cho các chuyên ngành hẹp, đi theo hướng phrase-based (đơn vị được dịch là một chuổi các từ liên tiếp) chứ Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 27 -không phải là word-based (đơn vị để dịch là từ, word-for-word) là một phương pháp mới, hiệu quả hơn trong xu hướng dịch trực tiếp.
- So với dịch trực tiếp, các hệ thống dịch chuyển đổi đi xa hơn các hệ dịch trực tiếp trong việc phân tích ngữ pháp (và ngữ nghĩa) của ngôn ngữ nguồn và ngôn ngữ đích.
- Sơ đồ hoạt động của hệ dịch chuyển đổi được thể hiện ở mô hình dưới đây: Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 28 - Hình 2.2: Sơ đồ một hệ dịch chuyển đổi.
- Sự phụ thuộc nặng nề của quá trình dịch đối với ngôn ngữ nguồn.
- Cây cú pháp của ngôn ngữ nguồn quyết định cách thức biên dịch văn bản sang ngôn ngữ đích.
- Dữ liệu chỉ sử dụng được cho dịch một chiều và cho một cặp ngôn ngữ.
- Con người dịch ngôn ngữ theo một cách hoàn toàn khác.
- Khó khăn chính mà người dịch thường gặp là khi chuyển ngữ : tổng hợp câu văn của Ngôn ngữ nguồn Danh sách các hình thái & nghĩa Hình thái & nghĩa thích hợp nhất Ngôn ngữ đích Từ điển song ngữ Phân tích câu nguồnTổng hợp câu đích Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 29 -ngôn ngữ đích.
- 3) Quy trình dịch chuyển đổi: Thông thường, trong các hệ dịch máy theo phương pháp chuyển đổi chấp nhận sơ đồ dịch gồm các bước sau.
- Nói cách khác, các bước trên sẽ dựa trên từ điển song ngữ và kiến thức về văn phạm của ngôn ngữ nguồn, hệ phân tích câu cần dịch thành dãy hình thái của các từ sau đó dựng cây cú pháp cho câu.
- Chuyển đổi cây cú pháp : Thông thường là ứng với mỗi luật sinh của ngôn ngữ nguồn có kèm theo một quy tắc dịch (chọn luật tương Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 30 -ứng trong ngôn ngữ đích để xây dựng cây cú pháp của ngôn ngữ đích từ cây cú pháp của ngôn ngữ nguồn.
- V) Dịch máy dựa trên thống kê (Statistical Machine Translation) Tiếp cận dịch máy dựa trên thống kê xuất hiện vào cuối những năm 1980, được đề xuất bởi trung tâm nghiên cứu IBM TJ Watson với hệ dịch Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 31 -máy Anh-Pháp Candide.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 32 -VI) Dịch máy dựa trên mẫu ví dụ (Example-Based Machine Translation) Ý tưởng về tiếp cận dịch bằng ví dụ được giới thiệu lần đầu tiên bởi Nagao vào năm 1984 trong nỗ lực xây dựng hệ dịch tự động Nhật-Anh.
- Phương pháp có thể áp dụng cho bất kỳ cặp ngôn ngữ nào, miễn là hệ thống có một tập các ví dụ đủ phong phú.
- Các ngôn ngữ nguồn và đích không cần phải được khảo sát trước về mặt từ vựng và ngữ pháp.
- Ngôn ngữ nguồn Các ví dụ phủ câu cần dịch Tổ hợp kết quả từ các câu đíchNgôn ngữ đích Tập ví dụ ngôn ngữ nguồnXây dựng tập các mẫu đích Tập ví dụ ngôn ngữ đích Dữ liệu chuyển đổi Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 33 -Tiếp cận dịch bằng ví dụ có hai điểm yếu đó là sự quá phụ thuộc vào chất lượng của các cặp ví dụ được sử dụng để làm mẫu và thuật toán đối sánh mẫu thực hiện khá chậm so với một số tiếp cận khác (vì chưa có thuật toán hiệu quả trong việc tìm kiếm sự xuất hiện của một đoạn văn bản trong toàn bộ tập mẫu).
- IX) Dịch liên ngữ Như mô hình và lý thuyết đã nêu, dịch liên ngữ là một phương pháp dịch máy sát nghĩa nhất.
- Các hệ dịch chuyển đổi là một bước tiến so với các hệ dịch trực tiếp về mặt tìm hiểu cấu trúc của câu, dịch liên ngữ còn tiếp tục đi xa hơn nữa với Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 34 -việc cố gắng xây dựng một cấu trúc chung cho việc biểu đạt các ý tưởng (dạng liên ngữ) của bất kỳ câu văn nào.
- 1) Ưu điểm Các hệ dịch máy theo mô hình liên ngữ có nhiều ưu điểm.
- Ngôn ngữ nguồn Phân tích câu nguồn Tổng hợp câu đích Ngôn ngữ đích Dịch liên ngữ Dịch chuyển đổiDịch trực tiếp Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 35 - Hình 2.5: Một hệ dịch liên ngữ cho n ngôn ngữ khác nhau 2) Nhược điểm • Vấn đề khó khăn nhất trong hệ dịch liên ngữ là xây dựng liên ngữ đủ phong phú để có thể biểu đạt mọi sắc thái trong các ngôn ngữ khác, cho đến thời điểm hiện tại, chưa có mô hình thực tế cũng như lý thuyết nào đạt được điều này.
- Ưu điểm của hệ liên ngôn ngữ là số lượng bộ dịch được dùng bởi hệ dịch liên ngôn ngữ không nhiều.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 36 - 3) Phân hoạch liên ngữ Trong cuốn “Ethnologue Language Family Index” đưa ra một sự phân loại chi tiết các ngôn ngữ trên thế giới, tổng cộng 6,809 thứ tiếng, bao gồm 108 họ ngôn ngữ.
- hơn 2 triệu người nói các ngôn ngữ họ Daic.
- ngoài ra còn có các ngôn ngữ thuộc họ Miao-Yao, Austronesian và Tibeto-Burman.
- Austro-Asiatic (168) Mon-Khmer (147) Eastern Mon-Khmer (67) Bahnaric (40) Central Bahnaric (6) North Bahnaric (14) South Bahnaric (9) West Bahnaric (11) Katuic (19) Central Katuic (5) East Katuic (8) Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 37 -West Katuic (6) Khmer (2) KHMER, CENTRAL [KMR] (Cambodia) KHMER, NORTHERN [KXM] (Thailand.
- Viet-Muong (10) Chut (3) AREM [AEM] (Viet Nam) MALENG [PKT] (Laos) CHUT [SCB] (Viet Nam) Cuoi (2) HUNG [HNU] (Laos) THO [TOU] (Viet Nam) Muong (3) BO [BGL] (Laos) MUONG [MTQ] (Viet Nam) NGUÔN [NUO] (Viet Nam) Thavung (1) AHEU [THM] (Thailand) Vietnamese (1) VIETNAMESE [VIE] (Viet Nam) Hình 2.6: Cây phả hệ ngôn ngữ họ Austro-Asiatic Indo-European (443) Germanic (58) East (1) GOTHIC [GOF] (Ukraine) North (14) East Scandinavian (8) Danish-Swedish (8) West Scandinavian (6) FAROESE [FAE] (Denmark) ICELANDIC [ICE] (Iceland) JAMSKA [JMK] (Sweden) NORN [NON] (United Kingdom) Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 38 -NORWEGIAN, NYNORSK [NRN] (Norway) TRAVELLER NORWEGIAN [RMG] (Norway) West (43) English (5) CAYMAN ISLANDS ENGLISH [CYE] (Cayman Islands) ENGLISH [ENG] (United Kingdom) ANGLOROMANI [RME] (United Kingdom) SCOTS [SCO] (United Kingdom) YINGLISH [YIB] (USA) Frisian (3) FRISIAN, WESTERN [FRI] (Netherlands) FRISIAN, NORTHERN [FRR] (Germany) FRISIAN, EASTERN [FRS] (Germany) High German (19) German (17) Yiddish (2) Low Saxon-Low Franconian (16) Low Franconian (3) Low Saxon (13.
- Điều này một phần lý giải vì sao không thể xây dựng một liên ngữ đầy đủ, hoàn toàn độc lập ngôn ngữ được.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 39 -X) Kết chương Qua các phương pháp dịch máy trình bày trên và trên thực tiễn của dịch máy Anh-Việt, có thể thấy các phương pháp dịch máy đều có những mặt mạnh, mặt yếu riêng, và chưa thấy có một giải pháp nào tốt cho mọi tình huống.
- Quay trở lại bài toán gốc: “Tìm hiểu kỹ thuật dịch máy và ứng dụng vào tài liệu hàng không”, với hướng tiếp cận là dịch trực tiếp.
- Trong quá trình đọc tài liệu tham khảo, chúng tôi nhận thấy một trong những thành phần cốt yếu của các hệ dịch máy là kho ngữ liệu, nói cách khác, là từ điển song ngữ.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 40 - CHƯƠNG 3: TỪ ĐIỂN HÀNG KHÔNG Có thể nói một chương trình là đáng tin nếu kết xuất của nó là chính xác.
- Có thể nói một ứng dụng dịch máy là đáng tin nếu kết xuất của nó dựa trên một từ điển chính xác.
- Hoàn thiện cơ sở dữ liệu, phần mềm từ điển và thử nghiệm dịch máy.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 41 -Hai công trình này là cơ sở dữ liệu gốc của phần mềm từ điển hàng không.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 42.
- 3) Tham khảo các trang web dịch máy như.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 43.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 44 -III) Lựa chọn mô hình, thiết kế giải thuật, giao diện và viết chương trình Tuân thủ theo quy trình của công nghệ phần mềm, chúng tôi xây dựng ứng dụng lần lượt theo các bước sau.
- Sửa (sửa từ hiện thời) Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 45.
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 46 -Lập luận.
- File index gồm ba thành phần: từ, vị trí offset (vị trí Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 47 -nghĩa của từ trong file dữ liệu) và độ dài của nghĩa, mỗi thành phần ngăn cách nhau bởi dấu tab (ASCII 9).
- Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 48 -Hoặc đặc tả trong bảng sau (dưới góc nhìn cơ sở dữ liệu): Field Name Data Type Length Allow Nulls English (PK) Nvarchar 255 NghiaViet Nvarchar 255 9 Vietnamese Ntext 16 9 ID_XemThem Bit 1 XemThem Nvarchar 255 9 ID_HinhAnh Bit 1 Bảng 3.1: Cấu trúc dạng bảng của kho ngữ liệu.
- Việc sử dụng các cấu trúc dữ liệu trên chỉ Trần Lâm Quân TÌM HIỂU KỸ THUẬT DỊCH MÁY VÀ ỨNG DỤNG VÀO TÀI LIỆU HÀNG KHÔNG - 49 -thuần túy mang ý nghĩa kỹ thuật, không làm thay đổi ý đồ thiết kế thuật giải nên không được trình bày kỹ - nhằm tránh những phức tạp không cần thiết

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt