« Home « Kết quả tìm kiếm

TIẾN TỚI ĐỀ ÁN QUỐC GIA VỀ XỬ LÝ TIẾNG VIỆT


Tóm tắt Xem thử

- BÁO CÁO ĐỀ DẪN VỀ XỬ LÝ TIẾNG VIỆT BÁO CÁO ĐỀ DẪN VỀ XỬ LÝ TIẾNG VIỆT.
- “TIẾN TỚI ĐỀ ÁN QUỐC GIA VỀ XỬ LÝ TIẾNG VIỆT” Nguyễn Ái Việt 1.
- Luận điểm: Cần một đề án quốc gia có quy mô phù hợp về công nghệ xử lý tiếng Việt 2.
- Một số câu hỏi Câu hỏi 1: Làm gì? Gồm:.
- Sản phẩm gì ? Sáng tạo gì? Làm thế nào để đạt kết quả tối ưu?.
- Câu hỏi 2: Làm thế nào? Gồm · Tại sao cần đề án, chương trình thay đề tài, dự án..
- Quy mô như thế nào là phù hợp.
- Những ai sẽ tham gia? Tham gia thế nào.
- Tổ chức thực hiện và khai thác kết quả thế nào?.
- Thế nào là sản phẩm (Theo nghĩa rộng bất cứ kết quả nào của mọi hoạt động đều có thể coi là sản phẩm) b.
- Sản phẩm công nghệ: Có các hình thức · Hình thức cao: Dạng alpha, beta, có thể đưa ra sản xuất đại trà.
- Hình thức khá: Tài nguyên và công cụ để khai thác · Hình thức trung bình: Một số giải pháp cải tiến nâng cao hiệu năng hoặc một số chức năng mới.
- Hình thức sơ khai: Khai thác một số nguồn mở sẵn có, xây dựng một số “toy model” để hiểu một số khái niệm mới.
- Đa số các sản phẩm CNTT nhất là đối với Việt nam không chỉ đặt vấn đề làm được mà làm được với giá nào? Chọn công nghệ, giải pháp, phương pháp phụ thuộc vào giá thành.
- Một số quan điểm dựa trên kinh nghiệm.
- Xử lý văn bản là yêu cầu trọng tâm của thực tiễn.
- Tuyệt đại đa số tri thức, thông tin nằm ở văn bản · Hầu như chưa làm được gì so với nhu cầu xã hội · Thị trường không phát triển được do chưa tìm ra cách tiệm cận đúng, do đó định hướng nghiên cứu chưa đúng.
- Vấn đề số hóa và nâng cao chất lượng văn bản là vấn đề nhỏ hoặc chỉ là ứng dụng không có ý nghĩa khoa học?.
- Kiểm lỗi chính tả, lỗi ngữ pháp và lỗi văn phong gắn liền với chuẩn hóa và dạy kỹ năng tiếng Việt (Vấn đề: dùng dấu.
- ngắt đoạn thế nào).
- Hỗ trợ viết các văn bản chuyên ngành ( Chuẩn defacto về văn bản tiếng Việt (Đợi xây dựng quy định bao giờ cho xong) và Phục vụ văn bản hóa quy trình sản xuất và nghiệp vụ (nhúng quy trình vào hệ thống văn bản = tái cấu trúc quy trình nghiệp vụ)..
- Các từ điển:Từ điển chính tả, từ điển người dùng, từ điển thuật ngữ, sản xuất các từ điển máy, từ điển wiki, từ điển cụm từ chuẩn, từ điển từ đồng nghĩa, từ điển từ nghịch nghĩa, từ điển thuật ngữ chuyên ngành..
- Chuẩn về LM (khối liệu) tiếng Việt?.
- Dịch máy · SMT là xu thế lớn hiện nay? Có phù hợp với tiếng Việt.
- Xây dựng khối liệu nhanh và rẻ tiền: cách tiệm cần về quy trình, công cụ hỗ trợ, tự động hóa, giám sát chất lượng và các cơ chế thu thập, sử dụng lại.
- Một loạt các vấn đề cơ bản và công nghệ (Học máy có điều khiển hay không, song song hóa, các phần mềm trợ giúp, gắn nhãn từ loại)..
- Ý nghĩa của nghiên cứu cơ bản: Gắn nhãn từ loại tăng hay giảm hiệu năng dịch?.
- Các vấn đề: Dịch đa ngữ, Tài nguyên (cái quan niệm mới về TM, Cụm từ, mẫu câu), Công cụ sản xuất, Platform phát triển và rất nhiều vấn đề ngôn ngữ, giải thuật và áp dụng công nghệ, cải tiến hiệu năng (CSDL, xử lý song song, Hệ điều hành tối ưu, chia sẽ memory cùng hệ điều hành và qua mạng).
- Nhu cầu nghiên cứu thực tiễn.
- Kết luận 2: Các đề tài của nhà nước có thể cản trở sự phát triển của một số doanh nghiệp ( Cần có cơ chế thay đổi đề tài linh hoạt, có thể hoàn thành trong thời hạn hợp lý và thích ứng với các vấn đề do thực tiễn đề ra và Cần có cơ chế để chia sẻ dùng chung các kết quả (Đích phấn đấu không phải là người đang chạy bên cạnh mà là yêu cầu của xã hội) f.
- Kết luận 3: Vai trò trung tâm của tài nguyên và các công cụ thu thập, xử lý, khai thác tài nguyên ( Giai đoạn tới cần xây dựng dứt điểm một số tài nguyên có giá trị thực tiễn, không tiếp tục dàn trải đầu tư các “toy model” (đã đến lúc việc hiểu các công cụ đã chín muồi).
- Kết luận 4: Cơ chế hình thành các đề tài nghiên cứu cơ bản ( Không nên “đóng đinh” các đề tài nghiên cứu, nâng cao tự do sáng tạo trên cơ sở đáp ứng nhu cầu thực tiễn.
- Đề án linh hoạt hơn đề tài và dự án: chỉ cần xác định các hạng mục chính, 6 tháng 1 lần sẽ đưa ra các vấn đề “đặt hàng” và “đề xuất” để các nhà nghiên cứu đăng ký dự tuyển..
- Kết luận 5: Khuyến khích các vấn đề công nghệ ( Sản phẩm thực tế cần được chuẩn hóa, thiết kế và triển khai theo chuẩn công nghiệp coi trọng ứng dụng các công nghệ tiên tiến nhất.
- Kết luận 6: Sự tham gia của các thành phần: nhà nghiên cứu, nhà công nghệ, doanh nghiệp, nhà ngôn ngữ và người dùng..
- Vai trò của công nghệ xử lý tiếng Việt.
- Xử lý tiếng Việt có vị trí trung tâm, quan trọng đặc biệt đối với sự phát triển của ngành CNTT · Người Việt nam phải tự mình làm các sản phẩm xử lý tiếng Việt · Kinh nghiệm của thế giới: Đầu tư rất lớn vào xử lý ngôn ngữ bản địa.
- Các công ty xử lý thành công ngôn ngữ bản địa tại TQ, Hàn quốc, Nhật,… đều vượt các công ty như Google, Yahoo.
- Các nước như Thái, Sri Lanka, Bangladesh cũng đầu tư đáng kể vào xử lý ngôn ngữ.
- Xử lý ngôn ngữ là trung tâm trong việc xây dựng tài nguyên thông tin, công nghiệp nội dung số là các lĩnh vực mà các công ty nội địa có thế mạnh cạnh tranh..
- Công nghiệp nội dung số Việt nam phát triển bùng nổ, đã đến lúc cần đến công nghệ xử lý tiếng Việt.
- Khai mở thị trường và xây dựng nền tảng là trách nhiệm của nhà nước · Sản phẩm thực tiễn là sự tích hợp nhiều công nghệ khác nhau, nếu thoát được tư duy chuyên môn hóa tuyệt đối “ thầy ngoại khoa” thị trường sẽ bùng nổ.
- Đã đến lúc phải có một đề án với quy mô lớn hơn, tổ chức khác và có sản phẩm thực sự · Thành tựu lớn nhất của các đề tài về xử lý tiếng Việt là đào tạo, bước đầu tiếp cận với các công nghệ · Cái chưa làm được là chưa có sản phẩm có thể khai thác được cho giai đoạn sau · Nếu tiếp tục làm như cách cũ và quy mô nhỏ sẽ là lãng phí · Đầu tư có hiệu quả là phải tới ngưỡng, thực hiện dứt điểm một số mục tiêu và có sản phẩm 6.
- Thử xác định một số vấn đề trọng điểm.
- Tài nguyên và công cụ · Khối liệu tiếng Việt · Khối liệu song ngữ Anh-Việt và Hoa-Việt · WordNet cho danh từ tiếng Việt · Từ điển cụm danh từ Việt-Anh.
- Công cụ phân tích cụm chức năng ( theo cùng tập nhãn với tiếng Anh.
- Công cụ sản xuất từ điển máy · Công cụ xây dựng, khai thác, đánh giá kiểm tra chất lượng khối liệu.
- Chuẩn hóa và nghiên cứu cơ bản · Chuẩn hóa dữ liệu, chuẩn hóa quy trình và sản phẩm · Nghiên cứu về chuẩn hóa tiếng Việt · Nghiên cứu về các công cụ CNTT chuẩn hóa tiếng Việt · Các công trình xử lý đặc trưng cho tiếng Việt · Áp dụng phương pháp thống kê cho ngôn ngữ.
- Đào tạo chương trình “Ngôn ngữ học tính toán” (Computational Lingustics) c.
- Platform nghiên cứu và phát triển công nghệ · Platform tổ chức CSDL chuyên dụng cho ngành xử lý ngôn ngữ · Platform phát triển ứng dụng xử lý tiếng Việt (tham khảo chương trình GATE).
- Thiết bị (hệ thống thiết bị) chuyên dụng đa lõi xử lý ngôn ngữ.
- Hệ điều hành nguồn mở tối ưu cho xử lý ngôn ngữ.
- Hệ xử lý tìm kiếm song song tối ưu cho xử lý ngôn ngữ trên nền Hadoop.
- Một số ứng dụng (có cơ chế hỗ trợ và phối hợp với doanh nghiệp).
- Máy tìm kiếm chuyên ngành tiếng Việt.
- Ứng dụng phân tích thống kê ngôn ngữ · Các công cụ nâng cao chất lượng văn bản · Hạ tầng số hóa văn bản dùng chung.
- Hệ thống hỗ trợ gỡ băng và dịch cabin · Thiết bị truy cập văn bản và âm thanh tiếng Việt · Một số ứng dụng trên nền di động e.
- SPI (Service Programing Interface) cho cộng đồng · Repository để trao đổi tài nguyên · Diễn đàn trao đổi về xử lý tiếng Việt và ngôn ngữ học ứng dụng.
- Một số đề nghị về cơ chế tổ chức triển khai a.
- Tiệm cận sản phẩm thay cho tiệm cận công nghệ · Sản phẩm sẽ có hệ thống chuẩn yêu cầu chức năng : đáp ứng nhu cầu thực tiễn và có sự khác biệt công nghệ ( vấn đề áp dụng và tích hợp công, vấn đề khoa học NLP và vấn đề ngôn ngữ học.
- Các bài toán công nghệ và nghiên cứu cơ bản có cơ chế linh hoạt, kích thích sáng tạo và bám sát yêu cầu.
- Các nhà công nghệ R&D phát triển sản phẩm thử nghiệm dạng beta.
- Các doanh nghiệp phát triển sản phẩm và sản xuất hàng loạt · Các nhà nghiên cứu : nghiên cứu và giải quyết các vấn đề cơ bản · Các nhà ngôn ngữ: tham gia định hướng, định chuẩn và đề ra các vấn đề ngôn ngữ cần giải quyết · Cộng đồng: tham gia tạo ra tài nguyên trên môi trường chung.
- Vấn đề cần chú ý: i) Thế nào là công nghệ lõi và chuyển giao thế nào ii) Hỗ trợ doanh nghiệp thế nào c.
- Trọng tâm là tài nguyên và công cụ: trọng tâm của tài nguyên là văn bản · Người dùng sẽ đóng góp và được chia sẻ sử dụng tài nguyên, như vậy sẽ tăng hiệu quả đầu tư · Các doanh nghiệp cũng được sử dụng tài nguyên dựa trên đóng góp (góp một sẽ được dùng gấp 2-3, giảm chi phí tự làm( và sẽ có những đề tài R&D đề ra đối với các nhà nghiên cứu và phát triển công nghệ..
- Sẽ có Platform công cụ để sử dụng tài nguyên để nghiên cứu (thông qua SPI) không download.
- Mã nguồn mở và cơ chế sản xuất thử.
- Các công cụ do đề án làm ra sẽ được cung cấp dưới dạng mã nguồn mở, sử dụng tự do, đóng góp tượng trưng khi thương mại hóa theo cơ chế minh bạch.
- Các ứng dụng được hỗ trợ một phần theo cơ chế của dự án sản xuất thử hiện nay.
- Cơ chế đánh giá nghiệm thu · Có công cụ kiểm tra chất lượng tài nguyên theo chuẩn · Có cơ chế nghiệm thu công cụ, công nghệ cốt lõi lưu ý đóng gói theo format nguồn mở · Đối với các ứng dụng cần có kiểm thử và báo cáo về thương mại hóa theo tiêu chí cho trước f.
- Hội thảo góp ý kiến: quyết tâm, cam kết và mục tiêu · Ban Chủ nhiệm Chương trình cấp kinh phí xây dựng đề án · Có chủ trương về quy mô và cơ chế.
- Điều tra nghiên cứu và xây dựng mô hình đề án thật kỹ.