« Home « Kết quả tìm kiếm

Tối ưu bảng cụm từ cho dịch máy thống kê dựa vào cụm


Tóm tắt Xem thử

- TỐI ƢU BẢNG CỤM TỪ.
- CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM.
- Tôi xin cam đoan nội dung của luận văn đã đƣợc sự đồng ý sử dụng những thông tin để xây dựng luận văn và không sử dụng tùy ý nội dung luận văn vào mục đích khác;.
- TỔNG QUAN VỀ DỊCH MÁY VÀ DỊCH MÁY THỐNG KÊ.
- Error! Bookmark not defined..
- Tổng quan về Dịch máy.
- Lịch sử của dịch máy.
- Vai trò của dịch máy.
- Mô hình tổng quát dịch máy.
- Hƣớng tiếp cận của dịch máy Error! Bookmark not defined..
- Tổng quan về Dịch máy thống kê Error! Bookmark not defined..
- Chu kỳ phát triển của hệ dịch thống kêError! Bookmark not defined..
- Phân loại dịch máy thống kê.
- Phƣơng pháp tiếp cận.
- Bookmark not defined..
- MÔ HÌNH DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ Error! Bookmark not defined..
- Giới thiệu mô hình dịch máy dựa trên cụm từError! Bookmark not defined..
- Kiến trúc của mô hình dịch máy thống kê dựa trên cụm từ .
- Mô hình ngôn ngữ (P(e.
- Mô hình dịch.
- Mô hình chuyển đổi trật tự từ (reordering model.
- Mô hình log-tuyến tính áp dụng cho bài toán dịch máy .
- TỐI ƢU BẢNG CỤM TỪ CHO DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ.
- Mô hình Entropy cho di ̣ch máy Error! Bookmark not defined..
- Ứng dụng cho mô hình dịch máy dựa vào cụmError! Bookmark not defined..
- Mô hình di ̣ch.
- ĐÁNH GIÁ THỰC NGHIỆM BẰNG HỆ DỊCH MÁY THỐNG KÊ MOSES.
- Xây dựng chƣơng trình dịch và thực hiện tối ƣu bảng cụm từ..
- Chuẩn bị dữ liệu và chuẩn hóa dữ liệuError! Bookmark not defined..
- Xây dựng mô hình ngôn ngữ, mô hình dịchError! Bookmark not defined..
- Cắt gọt (Pruning) bảng cụm từ theo mô hình Entropy.
- Thực nghiệm và đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt Error! Bookmark not defined..
- Đánh giá kết quả dữ liệu huấn luyện bảng cụm từ.
- Automatic Language Processing Advisory Committee - Hội đồng tƣ vấn về xử lý ngôn ngữ tự động.
- Bảng 3.1: Bảng dịch cụm từ với các sự kiện liên kếtError! Bookmark not defined..
- Bảng 4.2: Ngữ liệu tiếng anh.
- Hình 1.1: Lịch sử của dịch máy.
- Hình 1.2 Sơ đồ tổng quát của một hệ dịch máy.
- Hình 1.3: Sơ đồ của hệ dịch bằng phƣơng pháp thống kêError! Bookmark not defined..
- Hình 1.5: Chu kì phát triển của hệ dịch thống kê Error! Bookmark not defined..
- Hình 1.6 Sự tƣơng ứng một - một, giữa câu tiếng Anh và câu tiếng Pháp.
- Hình 1.7 Sự tƣơng ứng giữa câu tiếng Anh với câu tiếng Tây Ban Nha khi cho thêm từ vô giá trị (null) vào đầu câu tiếng Anh.
- Hình 1.8 Sự tƣơng ứng một - nhiều giữa câu tiếng Anh với câu tiếng Pháp.
- Hình 1.9 Sự tƣơng ứng nhiều - nhiều giữa câu tiếng Anh với câu tiếng Pháp..
- Hình 1.10 Mô hình dịch dựa trên cây cú pháp.
- Hình 1.11 Dịch liên ngữ.
- Hình 2.1 Kiến trúc của mô hình dịch máy thống kê dựa trên cụm từ.
- Hình 2.1 Một từ tiếng Việt tƣơng ứng với 1 hoặc nhiều từ tiếng Anh (1 - n.
- Hình 2.2 Một hoặc nhiều từ tiếng Việt tƣơng ứng với một từ tiếng Anh (n - 1.
- Hình 2.3 Nhiều từ tiếng Việt tƣơng ứng với nhiều từ tiếng Anh (n – n.
- Hình 2.4 Gióng hàng trƣớc khi chuyển đổi.
- Hình 2.5 Gióng hàng sau khi chuyển đổi.
- Hình 2.6 Mô hình log-tuyến tính.
- Hình 2.7: Thuật toán giải mã A* cho dịch máy.
- Hình 2.8: Thuật toán beamsearch pruning đánh giá chất lƣợng dịch.
- Trong bối cảnh phát triển của thế giới ngày nay, nhu cầu trao đổi thông tin ngày càng nhiều, và số lƣợng ngôn ngữ sử dụng là rất lớn.
- Tuy nhiên, vấn đề khó khăn gặp phải là số lƣợng ngôn ngữ sử dụng lớn thì cần phải có một đội ngũ phiên dịch lớn để dịch các văn bản, tài liệu, lời nói từ ngôn ngữ của nƣớc này sang ngôn ngữ của nƣớc khác.
- Do vậy, để cải tiến đƣợc tình trạng này cần phải có một mô hình tự động trong công việc dịch để hỗ trợ và làm giảm sức lao động của con ngƣời..
- Từ đó, việc nghiên cứu về dịch máy đã đƣợc tiến hành ngay từ khi chiếc máy tính điện tử đầu tiên ra đời.
- Công việc đƣa ra mô hình tự động cho việc dịch đã và đang đƣợc phát triển, mặc dù chƣa giải quyết đƣợc triệt để lớp ngôn ngữ tự nhiên.
- Dịch máy sẽ là giải pháp hỗ trợ cho việc đối thoại giữa ngƣời – máy..
- Trong số các hƣớng nghiên cứu trong dịch máy hiện nay, hƣớng tiếp cận thống kê đang đƣợc đánh giá là hƣớng phát triển tiềm năng và thu hút đƣợc sự quan tâm của nhiều nhà nghiên cứu trên thế giới.
- Thay vì xây dựng các từ điển, các quy luật chuyển đổi bằng tay, hệ dịch này tự động xây dựng các từ điển, các quy luật dựa trên kết quả thống kê có đƣợc từ các kho ngữ liệu.
- Chính vì vậy, dịch máy thống kê có tính khả chuyển cao áp dụng đƣợc cho bất kỳ cặp ngôn ngữ nào..
- Cơ sở của phƣơng pháp dịch thống kê đó là dịch máy thống kê trên cơ sở từ, cụm từ và cú pháp.
- Trong đó, dịch máy thống kê trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau.
- Các cụm từ trong kỹ thuật này thƣờng không cụm từ theo nghĩa ngôn ngữ học mà là các cụm từ đƣợc tìm thấy bằng cách sử dụng phƣơng pháp thống kê để trích rút từ các cặp câu.
- Việc sử dụng các cụm từ theo nghĩa ngôn ngữ học(tức là dựa trên cú pháp, xem phân loại cú pháp) làm giảm chất lƣợng của dịch máy bằng phƣơng pháp này..
- Khi kích thƣớc tập văn bản huấn luyện lớn, số lƣợng các cụm n-gram và kích thƣớc của mô hình ngôn ngữ cũng rất lớn.
- Nó không những gây khó khăn trong việc lƣu trữ, mà còn làm tốc độ xử lý của mô hình ngôn ngữ giảm xuống do bộ nhớ của máy tính là hạn chế.
- Để xây dựng mô hình ngôn ngữ hiệu quả , chúng ta phải giảm kích thƣớc của mô hình ngôn ngữ mà vẫn đảm bảo độ chính xác.
- Vì vậy mà tôi chọn đề tài hƣớng đến việc giải quyết bài toàn “Tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm”, đây cũng là phƣơng pháp mang lại tính hiệu quả cao, và là phƣơng pháp dịch máy đƣợc nghiên cứu nhiều nhất hiện nay..
- Chƣơng 1: Tôi tìm hiểu và trình bày khái quát về dịch máy và dịch máy thống kê.
- Chƣơng 2: Trình bày chi tiết về mô hình dịch máy thống kê dựa vào cụm từ.
- Chƣơng 3: Đây cũng là nội dung nghiên cứu chính của luận văn.
- Trong chƣơng này tôi tập trung nghiên cứu chi tiết về phƣơng pháp tối ƣu bảng cụm từ cho dịch máy thống kê dựa vào cụm, cụ thể là mô hi ̀nh “Entropy-based Pruning”.
- Chƣơng 4: Tôi tập trung vào việc mô tả thực nghiệm, bao gồm công việc xây dựng và cài đặt những chƣơng trình hỗ trợ việc xây dựng đƣợc mô hình ngôn ngữ, mô hình dịch máy thống kê và các kết quả thực nghiệm đạt đƣợc..
- [1] Đào Ngọc Tú (2012), “Nghiên cứu vào dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt”.
- [2] Nguyễn Văn Vinh (2005), “Xây dựng chƣơng trình dịch tự động Anh- Việt bằng phƣơng pháp dịch thống kê”.
- Tài liệu tiếng Anh