« Home « Kết quả tìm kiếm

Tiếp theo chương trình nghiên cứu-phát triển về Xử lý Tiếng nói và Văn bản tiếng Việt


Tóm tắt Xem thử

- HƯỚNG TỚI MỘT CHƯƠNG TRÌNH NGHIÊN CỨU - PHÁT TRIỂN VỀ CÔNG NGHỆ XỬ LÝ TIẾNG VIỆT.
- Tiếp theo chương trình nghiên cứu-phát triển về Xử lý Tiếng nói và Văn bản tiếng Việt .
- Những nội dung, sản phẩm cần có.
- Xử lí tiếng Việt.
- Thiếu tài nguyên và công cụ cho VLSP – Từ điển.
- Kho ngữ liệu (annotated corpora.
- Các công cụ xử lí cơ bản.
- Hợp tác, phát triển từng bước, chia sẻ của nhiều tập thể và cá nhân..
- Nội dung, phương tiện, tài nguyên cơ bản là gì?.
- Đâu là những nghiên cứu nền tảng phải làm cho tiếng Việt?.
- Nghiên cứu và xây dựng một số sản phẩm tiêu biểu về xử lý tiếng nói và văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính và Internet..
- Xây dựng các tài nguyên và công cụ thiết yếu nhất cho xử lý tiếng nói và văn bản tiếng Việt, nhằm thực hiện mục tiêu 1 và dùng cho nghiên cứu-phát triển lâu dài..
- Lần đầu tiên có một đề tài về VLSP gồm 8 đơn vị có kinh nghiệm và làm việc tích cực Xây dựng một cấu trúc nền tảng, đặc biệt các hướng dẫn (guideline), phương pháp và tài nguyên công cụ cho cộng đồng nghiên cứu về VLSP.
- Phát triển một số sản phẩm tiêu biểu định hướng cho người dùng cuối.
- Phương pháp.
- Sản phẩm.
- Tài nguyên, công cụ.
- Sản phẩm thiết kế cho giai đoạn 5 năm .
- SP7.3 Kho ngữ liệu câu tiếng.
- Việt có chú giải SP7.3 Kho ngữ liệu câu tiếng.
- SP7.4 Hai kho ngữ liệu câu Anh-.
- Việt phổ chuyên ngành SP7.4 Hai kho ngữ liệu câu Anh-.
- văn bản tiếng Việt SP8.2.
- Hệ phân đoạn từ Việt SP8.2.
- Hệ phân đoạn từ Việt SP8.3.
- Hệ phân loại từ Việt SP8.3 Hệ phân loại từ Việt.
- SP8.4 Hệ phân cụm từ Việt.
- Hệ phân cụm từ Việt SP8.5.
- Hệ phân tích câu Việt SP8.5 Hệ phân tích câu Việt SP7.1.
- Từ điển từ tiếng Việt SP7.2 Từ điển từ tiếng Việt SP1.
- Nhóm hệ chuyên dụng dùng công nghệ nhận dạng và tổng hợp tiếng Việt.
- SP8.1 Công cụ phân tích âm.
- SP6.1 Kho ngữ liệu âm Cho nhận dạng tiếng.
- SP6.2 Kho ngữ liệu âm để tổng hợp tiếng.
- SP6.3 Kho ngữ liệu âm.
- từ đặc thù SP6.3 Kho ngữ liệu âm.
- Sản phẩm thực hiện cho giai đoạn 2 năm 2007-2009.
- Tạo một cộng đồng có trình độ về nghiên cứu và phát triển (8 đơn vị, 2 miền).
- VD: Dựng “chuẩn”Æ Thách thức: “Chuẩn” trong sự phát triển bền vững.
- Các công cụ đều được xây dựng dựa trên cùng một quan niệm về từ, gán nhãn, câu và trên cùng tài nguyên.
- Cùng sử dụng những phương pháp thống kê trong Học máy để xây dựng công cụ và tài nguyên kho ngữ liệu.
- Theo sát các xu hướng phát triển công nghệ NLP trên thế giới.
- Công cụ và tài nguyên nhằm chia sẻ cho cộng đồng.
- Có thể dựa trên các tài nguyên, công cụ, công nghệ lõi đã có để phát triển tiếp.
- SP7.3 Kho ngữ liệu.
- SP7.4 Kho ngữ liệu song ngữ Anh–Việt.
- SP8.2 Hệ phân tách.
- từ Việt SP8.2 Hệ phân tách.
- SP8.3 Hệ phân loại từ Việt.
- POS tagger SP8.3 Hệ phân loại từ Việt.
- SP8.5 Hệ phân tích cú pháp.
- tiếng Việt SP8.5 Hệ phân tích cú pháp.
- tiếng Việt SP7.1.
- SP7.1 English-Vietnamese.
- SP7.2 Từ điển tiếng Việt.
- dùng XLNN TN SP7.2 Từ điển tiếng Việt.
- VLSP website khối văn bản.
- http://vlsp.vietlp.org:8080/demo/.
- Tài nguyên tiếng nói.
- Nguyên tắc xây dựng CSDL tiếng nói (sau một thời gian mới có thể xác định được tiêu chuẩn này).
- Công cụ trợ giúp, quản lý thu âm.
- Một số CSDL âm cho tổng hợp và nhận dạng tiếng Việt.
- TTS tiếng Việt (HMM, concatenation) Æ định hướng phát triển.
- Phương pháp – huấn luyện và decode Æ định hướng phát triển.
- VLSP đang tiếp tục công bố tài nguyên (VieTreebank, tiếng nói VOV) và các công cụ cho cộng đồng nghiên cứu.
- http://vlsp.vietlp.org:8080/demo/?page=resources&lang=vi http://www.loria.fr/~lehong/tools/vnToolkit.php.
- Đang implement phần TTS tiếng Việt trên Web cho cộng đồng tích hợp vào ứng dụng.
- Phát triển để chia sẻ thông tin trong giới nghiên cứu và Đại học.
- Thông tin cập nhật kiến thức advanced trong XLNN: văn bản và tiếng nói – Các công cụ được cập nhật (tách từ, gán nhãn, gộp nhóm từ loại,…).
- Khối lượng công việc quá nặng ở một số đầu mục liên quan đến xây dựng các kho ngữ liệu (do thiết kế cho Dự án 5 năm).
- Minh chứng về số lượng của các kho ngữ liệu văn bản.
- Một số ví dụ minh họa về đầu tư và độ lớn của các kho ngữ liệu tiếng nói, chứng minh tính không hợp lý.
- kinh phí không đủ để vừa làm donation lại vừa phải phát triển sản phẩm mang tính cạnh tranh.
- Yêu cầu sản phẩm đầu cuối là không thực tế (kinh nghiệm của các nước tiên tiến) từ phía các Đề tài KHCN – nên đặt vấn đề về phát triển công nghệ lõi Æ chuyển giao công nghệ cho doanh nghiệp và phát triển thành sản phẩm.
- Minh họa về các công nghệ lõi được phát triển từ Đề tài.
- Vẫn cần được đầu tư nâng cấp (tiếng nói mới, độ tự nhiên…) Æ tiếp tục chuyển giao công nhệ.
- Một số ví dụ minh họa về đầu tư và độ lớn của các kho ngữ liệu tiếng nói cho cộng đồng, chỉ ra tính không hợp lý.
- Vẫn phải phát triển tiếp Æ đã được đầu tư rồi sao vẫn đăng ký tiếp – tiếng nói mới, độ tự nhiên.
- Những công việc và đầu tư tiếp theo: phải dựa trên những cái đã có Æxác định phải làm tiếp những vấn đề gì và phát triển tiếp.
- Giới Nghiên cứu và Đại học Æ học thuật, cung cấp kiến thức, cung cấp con người, công nghệ lõi.
- Giới doanh nghiệp Æ sản phẩm.
- Quản lý và phát triển tài nguyên.
- Non-profit: để quản lý, điều hành, phân phối kho ngữ liệu (cho mục đích khác nhau:.
- Hiện tại: http://vlsp.vietlp.org:8080/demo/?page=home.
- Nghiên cứu, cách tổ chức phát triển các kho ngữ liệu.
- Các tiêu chí đánh giá các kho ngữ liệu, kể cả độ lớn Æ tư vấn cho Bộ KHCN về đầu tư kinh phí.
- Phát triển các kho ngữ liệu có sự tham gia của cộng đồng – cơ chế kiểm soát, cập nhật – Quản lý kinh phí: kinh phí mua dữ liệu từ các cơ sở.
- Tiếng nói.
- Giao tiếp tiếng nói tự nhiên – Phát triển các kho ngữ liệu đặc.
- Sản phẩm có thị trường như dịch tiếng nói trong giao tiếp du lịch, hỏi thông tin.
- Tìm kiếm bằng hỏi đáp tiếng nói (tích hợp với các hệ thống Q&A), tìm nhạc (Zing).
- Ứng dụng nhúng (chip).
- Tổng hợp: rất nhiều ứng dụng và sẵn sàng nhận các đặt hàng – Làm chủ công nghệ và có khả.
- Có cơ chế an toàn trong chuyển giao công nghệ.
- Công nghệ Phương pháp.
- Công cụ, dữ liệu, tài nguyên, phương tiện Sản phẩm.
- Tiếp tục nâng cấp hoàn thiện các công cụ: tách từ, gán nhãn từ loại, gộp nhóm từ, phân tích cú pháp.
- Văn bản.
- phương tiện Sản phẩm.
- Phân loại văn bản