« Home « Kết quả tìm kiếm

MỘT VÀI SUY NGHĨ VỀ CNTT VÀ VIỆC GIẢI QUYẾT NHỮNG VẤN ĐỀ CỦA NGÔN NGỮ TRONG TIẾNG VIỆT


Tóm tắt Xem thử

- YÊU CẦU ỨNG DỤNG CÔNG NGHỆ ĐỂ GIẢI QUYẾT MỘT VÀI SUY NGHĨ VỀ CÔNG NGHỆ THÔNG TIN VÀ VIỆC GIẢI QUYẾT NHỮNG VẤN ĐỀ CỦA NGÔN NGỮ TRONG TIẾNG VIỆT..
- GS.TS Khoa Ngôn ngữ học.
- Trường ĐHKHXH&NV (Đại học Quốc gia Hà Nội) 1.Trong thời gian vừa qua ở nước ta giữa công nghệ thông tin (CNTT) và ngôn ngữ học (NNH) đã có những hợp tác nhất định.
- Nhưng trên thực tế sự hợp tác đó vẫn chưa tạo ra những kết quả hữu ích trong công nghệ xử lý tiếng Việt (XLTV) của CNTT.
- Có nhiều lý do khiến cho sự hợp tác chưa thu được kết quả như mong muốn.
- Theo cá nhân chúng tôi, trong những lý do đó, có ba vấn đề nổi lên hàng đầu.
- Đó là việc NNH chưa thể hiện được yêu cầu của mình là cần cái gì để CNTT có thể tham gia giải quyết những vấn đề NNH trong TV.
- Và thứ ba, là sự kết hợp giữa CNTT và NNH để cùng tạo ra sản phẩm thương mại phục vụ xã hội liên quan đến công nghệ xử lý tiếng Việt (XLTV)..
- Về vấn đề thứ nhất, có thể nói vào thời điểm hiện nay ở Việt Nam những người làm CNTT chưa “thể hiện rõ” được khi XLTV họ cần gì ở những người NNH nghiên cứu TV.
- Nhưng từ kinh nghiệm giảng dạy thực hành ngôn ngữ này, tôi nghĩ rằng việc XLTV của CNTT chắc chắn sẽ có nhiều vấn đề vướng mắc mà không thể không có sự tham gia của người nghiên cứu NNH trong địa hạt TV.
- Chẳng hạn, để “dịch tự động TV” có lẽ cái hóc búa nhất là “nhận diện từ loại của từ”.
- Bởi vì, do đặc điểm của TV, đây sẽ là vấn đề không đơn giản như nhiều ngôn ngữ biến hình khác của thế giói.
- Hay như cũng trong “dịch tự động TV”, việc nhận diện dấu hiệu “kết cấu chủ - vị” nào là kết cấu chính trong một chuỗi có nhiều kết cấu chủ vị là một việc làm không đơn giản.
- Hoặc như, khi ghép từ hoặc nhận diện từ ghép, TV cũng chưa có đầy đủ dấu hiệu hình thức để đánh dấu, kết hợp nào là chấp nhận được và kết hợp nào là không được người Việt chấp nhận.
- Tôi thử xin nêu ra một vài ví dụ về cái khó của việc “nhận diện từ loại của từ” từ TV trong khi XLTV của CNTT.
- Trong trường hợp này, việc XLTV của CNTT sẽ nhận diện từ loại của nó là gì khi, chắng hạn, dịch sang tiếng Pháp? Hay như khi Nguyễn Tuân dùng kết cấu “Máy bay Mỹ bom Hà Nội” thì ở trường hợp này, lấy dấu hiệu hình thức nào? Sự khác biệt của TV so với nhiều ngôn ngữ biến hình khác là từ ghi trong từ điển không cung cấp đủ dấu hiện hình thức đánh dấu từ loại.
- Đối vớí việc nhận diện dấu hiệu “kết cấu chủ - vị” nào là kết cấu chính trong một chuỗi có nhiều kết cấu chủ vị cũng có nhiều ví dụ.
- Ở đây có nhiều chuỗi có thể coi là “kết cấu chủ - vị”: Học sinh lớp 8//đi bắn chim, chim//rơi xuống sông, chim rơi xuốngsông// mất tích, Học sinh lớp 8//rơi xuống sông mất tích.
- Vậy thì đối với XLTV của CNTT, dấu hiệu hình thức nào cho phép nhận diện trong số những “kết cấu chủ - vị” nói trên, kết cấu nào là chính.
- Liệu kỹ thuật số có nhận ra được như “người” sử dụng ngôn ngữ thông thường hay không? Còn như khi ghép từ hay từ ghép, TV có lẽ cũng chưa có đầy đủ dấu hiệu hình thức để đánh dấu cho biết kết hợp nào là chấp nhận được và kết hợp nào là không được người Việt chấp nhận.
- Chẳng hạn, khi sử dụng phần mềm kiểm tra chính tả, với đoạn “Pháp khai thác than, thiếc, bạc chở về Pháp”, phần mềm kiểm tra chính tả cho rằng kết hợp chở về là sai chính tả vì (hình như) máy chỉ tính đến kết hợp trở về.
- Bây giờ chúng tôi xin nêu ra những suy nghĩ về yêu cầu của NNH là cần cái gì để CNTT có thể tham gia giải quyết những vấn đề ngôn ngữ trong TV.
- Có lẽ, trong phạm vi này cũng sẽ có nhiều những vấn đề được đặt ra, cần sự tham gia của công nghệ XLTV.
- Trước hết, đó là những vấn đề kỹ thuật liên quan đến nội dung chính tả tiếng Việt.
- Theo đó, công nghệ XLTV có thể xây dựng những dữ liệu (hay phần mềm) giúp cho người sử dụng tiếng Việt viết đúng chính tả.
- Chẳng hạn, theo số liệu của giới NNH, trong tiếng Việt, chỉ có “1.950 âm tiết (29% tổng số âm tiết ) là có vấn đề chính tả” (Hoàng Phê).
- Vậy công nghệ XLTV có thể kiểm chứng lại số liệu này, sau đó xây dựng những dữ liệu (hay phần mềm) để cho người dùng tiếng Việt sử dụng trong máy tính để viết đúng (hay chữa) chính tả hay không? Trong địa hạt chính tả, vấn đề viết hoa “tên riêng” cũng là một vấn đề hiện còn chưa nhất quán trong TV.
- Ví dụ, khi quy định “tên người Việt Nam cấu tạo bằng cách kết hợp một danh từ chung (ví dụ: ông, bà, thánh, cả hoặc từ chỉ học vị, chức tước, vv.) với một danh từ riêng dùng để gọi, làm biệt hiệu.
- Lúc này chính là cần có một “từ điển” xác định kết hợp ấy viết hoa hay không viết hoa.
- Rõ ràng ở đây, công nghệ XLTV và giới NNH có thể cùng nhau giúp cho việc viết hoa “tên riêng” thông nhất trong văn bản.
- Những nội dung khác như vấn đề địa danh, phiên âm tên riêng nước ngoài trong chính tả TV cũng cần có sự xử lý như vậy.
- Những người nghiên cứu NNH cần nhiều đến kỹ thuật thống kê của CNTT để góp phần XLTV.
- Chẳng hạn (cũng trong vấn đề chính tả), hiện nay xu hướng “không phân biệt i và y trong âm tiết mở” đang được các “quy định” của chính tả chữ Việt ủng hộ.
- Tuy nhiên, xu hướng “phân biệt i và y trong âm tiết mở” lại được cộng đồng sử dụng TV đồng thuận.
- Xu hướng thứ nhất dựa vào tính lôgíc của chữ viết, xu hướng thứ hai dựa vào tính bản chất xã hội của ngôn ngữ để lưu giữ truyền thống sử dụng của mình.
- Có lẽ, CNTT có thể xây dựng những “công cụ thống kê” giúp cho các nhà ngôn ngữ sử dụng để có dữ liệu về tình hình sử dụng cách viết “i hay y” trong các văn bản TV khác nhau, giúp cho việc xử lý của mình được chính xác, phù hợp với bản chất xã hội của ngôn ngữ.
- Ở đây CNTT có thể giúp người nghiên cứu NNH những kỹ thuật hữu ích..
- Vấn đề thứ ba mà cá nhân tôi muốn nói đến là sự kết hợp giữa CNTT và NNH để tạo ra sản phẩm thương mại phục vụ xã hội liên quan đến công nghệ xử lý tiếng Việt (XLTV) còn rất rời rạc, thậm chí có thể nói là không có sự kết hợp.
- Biểu hiện rõ nhất của tình trạng ấy là trong số những sản phẩm XLTV đã có trong thị trường, vẫn chưa có sự đóng góp của người nghiên cứu NNH.
- Ngay như “Chương trình KHCN trọng điểm cấp Nhà nước về Công nghệ thông tin và Truyền thông” ra đời trong nhiều năm nhưng thiếu hẳn sự hiện diện của người nghiên cứu NNH trong đội ngũ những người thực hiện.
- Có lẽ vì vậy mà, chẳng hạn có nhiều cuốn “Từ điển tần số từ tiếng Việt” ở những loại hình văn bản khác nhau, một sản phẩm XLTV đơn giản nhất nhưng rất hữu ích, vẫn chưa cung cấp được cho xã hội v.v và v.v..
- Rõ ràng, cho đến thời điểm hiện nay, giữa những người thực hiện nhiệm vụ XLTV của CNTT vẫn chưa kết hợp thực sự với người nghiên cứu NNH chuyên về TV.
- Nguyên nhân, theo chúng tôi, có nhiều và vì nhiều lý do tế nhị khác nhau.
- Tuy nhiên, có một khó khăn mà nếu không có sự can thiệp “ngay tức khắc” của “Chương trình KHCN trọng điểm cấp Nhà nước về Công nghệ thông tin và Truyền thông” thì tình hình ngăn cách nói trên vẫn khó tháo dỡ.
- 3.Nhân đây, chúng tôi cũng xin nói thêm là với bản chất xã hội của ngôn ngữ, không phải lúc nào xử lý những vấn đề của ngôn ngữ tự nhiên đều có thể mang lôgic hình thức vào áp dụng vào.
- Và chính đây là lúc mà người nghiên cứu NNH và người làm công nghệ XLTV phải kết hợp với nhau.
- Theo tôi, việc quy định “bỏ sự phân biệt i và y ở âm tiết mở” trong chính tả TV từ năm 1981 đến nay là việc mang lôgic hình thức vào áp dụng vào ngôn ngữ một cách “ấu trĩ”.
- Vì thế, hiện nay nó là một trong những nguyên nhân làm cho chính tả Việt chưa thực sự thống nhất trong cộng đồng sử dụng TV.
- Đây, có lẽ, là một lưu ý cần thiết cho người làm công việc XLTV của CNTT.
- Thư: Khoa Ngôn ngữ học, 336 Nguyễn Trãi, Q