« Home « Kết quả tìm kiếm

Xây dựng môi trường khai thác chữ viết tắt tiếng Việt


Tóm tắt Xem thử

- Xây dựng môi trường khai thác chữ viết tắt tiếng Việt.
- Abstract: Xuất phát từ các nghiên cứu về hiện tượng chữ viết tắt (CVT), vấn đề nhập nhằng chữ viết tắt tiếng Việt, vấn đề phương thức viết tắt hình thành từ, ngữ mới cùng với ý tưởng về hệ sinh thái phần mềm.
- nghiên cứu đề xuất xây dựng môi trường khai thác chữ viết tắt hướng đến một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều người sử dụng cùng tham gia đóng góp, cập nhật, kế thừa dữ liệu và khai thác.
- đồng thời tổng hợp các công cụ đã xây dựng, giới thiệu chi tiết hơn về công cụ từ điển tra cứu chữ viết tắt trên máy di động, nhằm minh họa một kết quả thực nghiệm xây dựng môi trường khai thác CVT..
- Keywords: Software Ecosystem, khai thác chữ viết tắt, từ điển chữ viết tắt..
- 1.1 Vài nét về hệ sinh thái phần mềm.
- Hệ sinh thái phần mềm (Software Ecosystem) 1 được lấy cảm hứng từ khái niệm từ hoạt động kinh doanh và hệ sinh thái sinh học.
- Hệ sinh thái phần mềm được hiểu là một tập hợp các doanh nghiệp hoạt động như một đơn vị và tương tác với một thị trường chung cho các phần mềm và dịch vụ, cùng với mối quan hệ giữa chúng.
- Thuật ngữ trong phân tích phần mềm cho rằng, các hệ sinh thái phần mềm được định nghĩa như là một tập hợp các hệ thống phần mềm, được phát triển và hợp tác phát triển trong cùng một môi trường[15].
- Các môi trường là tổ chức, công ty, xã hội (hệ thống mã nguồn mở của cộng đồng), hay một liên kết cộng đồng kỹ thuật nào đó..
- Hiện nay, có những ý kiến phản đối việc sử dụng thuật ngữ “hệ sinh thái” để mô tả phần mềm.
- Họ cho rằng phần mềm không có gì chung với một hệ sinh thái tự nhiên (của các thành phần vật lý và sinh học kết hợp của môi trường tự nhiên).
- Tuy nhiên, công đồng doanh nghiệp phần mềm hiện nay vẫn có xu hướng xây dựng một một hệ sinh thái phần mềm.
- Họ xem xây dựng hệ sinh thái thành công chính là một cách để doanh nghiệp phần mềm phát triển và trường tồn..
- Trên thế giới, ví dụ nổi tiếng của hệ sinh thái phần mềm mà giới CNTT xem như là kiểu mẫu, đó là hệ sinh thái phần mềm là iPhone, Microsoft, Google, Android, Symbian.
- Tại Việt Nam, đã xuất hiện các hệ sinh thái: vnEdu - Hệ sinh thái giáo dục, VNPT-HIS - hệ sinh thái ngành Y tế, hay Zing Me (mạng xã hội giải trí online)..
- Nhiều nhà nghiên cứu tin rằng xây dựng các hệ sinh thái phần mềm là con đường đúng đắn, phù hợp với xu hướng chung và là sự đảm bảo sự tồn tại của doanh nghiệp phần mềm trong môi trường sự cạnh tranh khốc liệt và đòi hỏi sự sáng tạo, hợp tác để cung tồn tại và phát triển..
- 1.2 Đặc điểm một hệ sinh thái phần mềm.
- Để có một hệ thống phần mềm, từ khi hình thành ý tưởng về sản phẩm của mình, cần đặt vấn đề xây dựng hệ sinh thái phần mềm ngay từ đầu[15]: Khi xây dựng một hệ thống, nên cân nhắc kỹ để lựa chọn sẽ làm “sản phẩm” hay “sản phẩm lõi + hệ sinh thái”.
- cần chú ý đến tính cộng sinh (sống nhờ) phối ghép với hệ sinh thái khác, chẳng hạn như tận dụng Facebook, WordPress,… thay vì mình tự làm lấy toàn bộ.
- Có thể tóm tắt các đặc điểm của một hệ sinh thái phần mềm như sau 3.
- Tính kế thừa: Giống như đặc điểm của tự nhiên hệ sinh thái như hỗ sinh, cộng sinh, hợp tác cùng phát triển, kế thừa, phối ghép với các hệ sinh thái khác..
- Tính ổn định: Hệ sinh thái có kiến trúc ổn định: giao diện, quản lý phát triển - tiến hóa, an ninh và độ tin cậy..
- 1.3 Sự xuất hiện các từ ngữ mới trong từ vựng và chữ viết tắt.
- Phương thức viết tắt: Phương thức ghép các con chữ (âm) ở đầu, cuối, vị trí nào đó trong một nhóm từ với nhau để tạo nên từ mới.
- Phương thức viết tắt xuất hiện các từ ngữ mới.
- Con đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc, trong đó có phương thức viết tắt..
- Chữ viết tắt thường có hai dạng: Viết tắt tự tạo, ngẫu nhiên và Viết tắt theo quy luật, thể hiện xu hướng “tắt hóa” khi sử dụng viết chữ một cách tự nhiên của con người, là sự sáng tạo cách viết vốn rất riêng tư, nhưng cũng có thể được phổ biến.
- Viết tắt theo quy luật chung là cách viết tắt có sự nghiên cứu, sắp xếp, định dạng theo một quy luật nào đó định sẵn tùy từng lĩnh vực..
- Ngôn ngữ có tính kế thừa, và cộng đồng cùng phát triển.
- Việc tạo lập, sử dụng CVT nên chăng cần tạo lập môi trường khai thác chung với những công cụ cần thiết để hỗ trợ người sử dụng..
- 1.4 Môi trường khai thác phần mềm.
- Xuất phát từ ý tưởng về hệ sinh thái phần mềm, chúng tôi đặt cần đặt vấn đề xây dựng môi trường khai thác phần mềm - hướng phát triển với ý tưởng như hệ sinh thái giúp khai thác phần mềm hiệu quả.
- Chẳng hạn, khi xây dựng kho ngữ liệu CVT, chúng tôi tận dụng nguồn dữ liệu trên Internet để tập hợp, tìm kiếm CVT mới.
- khi nghiên cứu đánh giá tần số, tần suất xuất hiện CVT, chúng tôi tận dụng nguồn dữ liệu của hệ thống Yahoo.com, tức là cộng sinh để đề xuất cách thống kê dữ liệu sử dụng CVT, cung cấp một góc nhìn, một cách đánh giá CVT sử dụng trên Internet….
- Trong nghiên cứu đề tài, chúng tôi đặt ra mục tiêu là xây dựng môi trường khai thác chữ viết tắt chứ chưa phải là hệ sinh thái CVT.
- Tuy nhiên, chúng tôi cố gắng hướng đến một giải pháp tạo ra môi trường khai thác có tính cộng đồng, nhiều NSD cùng tham gia khai thác, sử dụng, đóng góp ý tưởng, cập nhật dữ liệu, phát triển liên tục, kế thừa và ngày càng hoàn thiện trong tương lai..
- 2 Đề xuất môi trường khai thác chữ viết tắt.
- 2.1 Khái niệm môi trường khai thác chữ viết tắt.
- Xuất phát từ một ví dụ trực quan bể nước sinh thái nuôi cá trong nhà, chúng tôi đưa khái niệm môi trường khai thác chữ viết tắt.
- Bể cả sinh thái với hệ thống đất, đá, cát, cây trồng thủy sinh, cá nuôi trong bể tạo ra một hệ sinh thái nuôi sống các loại cá, cây cảnh bên trong bể như hình 1 mô phỏng:.
- Mô hình hệ sinh thái bể nuôi cá.
- Khái niệm môi trường khai thác chữ viết tắt: Môi trường khai thác CVT là hệ thống tập hợp thông tin nghiên cứu, sản phẩm phần mềm, tập trung và tích hợp các công cụ cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác, ứng dụng về CVT tiếng Việt.
- thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin, đồng thời thực hiện cung cấp và trao đổi với người sử dụng thông qua một phương thức thống nhất trên nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu..
- Chúng tôi đề xuất xây dựng môi trường khai thác CVT, cụ thể như Hình 2..
- CSDL CVT: CSDL chứa các chữ viết tắt do chúng tôi đã xây dựng trong [ 13.
- CSDL Luật sinh: CSDL chứa các Luật sinh (luật sản xuất) [9] mô phỏng sự suy diễn tri thức CVT, tạo lập môi trường khai thác CVT.
- xây dựng, bổ sung và chỉnh sửa theo sự phát triển tự nhiên của ngôn ngữ, trong đó có sự tạo sinh CVT..
- Mô hình môi trường khai thác chữ viết tắt tiếng Việt.
- CSDL khai thác: Tập hợp các loại văn bản mẫu để thử nghiệm trong mô hình máy suy diễn[10], đó có thể là các tập Copus[ 1 ] có sẵn đã được xây dựng..
- 2.2 Thực nghiệm xây dựng công cụ trong môi trường khai thác chữ viết tắt.
- Trên cơ sở kết quả nghiên cứu các tác giả trong [13], [2] và [15], chúng tôi trình bày một vài nghiên cứu của mình, đóng góp trong môi trường khai thác CVT..
- Một số kết quả thực nghiệm đã xây dựng và công bố:.
- 1) Xây dựng kho ngữ liệu CVT tiếng Việt, bao gồm phân tích thiết kế CSDL, triển khai cài đặt để thu thập dữ liệu CVT thủ công và từ môi trường Internet.
- Kết quả đã xây dựng kho ngữ liệu với gần 10.000 CVT tiếng Việt, tiếng Anh [3]..
- 2) Đưa ra giải pháp ứng dụng chữ viết tắt chỉ mục cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu [4]..
- 3) Đề xuất giải pháp và xây dựng thuật toán SENVA cập nhật tự động CVT mới từ môi trường Internet, tiếp tục từng bước làm giàu dữ liệu, cập nhật theo kịp sự biến động, tạo sinh mới CVT trong thực tiễn [6]..
- 4) Xây dựng hệ thống web site thư viện CVT trên Internet gồm nhiều chức năng: lưu trữ, cập nhật, tra cứu, biên tập, thống kê sử dụng CVT….
- 5) Xây dựng hệ thống khai thác CVT trong tin nhắn thương hiệu: xây dựng chương trình tin nhắn thương hiệu, triển khai ứng dụng cung cấp cho khách hàng bằng công cụ tư vấn thông minh đặt tên Brandname hỗ trợ doanh nghiệp[7]..
- Ở đây, để tạo môi trường khai thác CVT hướng đến tính mở, tạo điều kiện dễ giao tiếp, bảo trì.
- chúng tôi triển khai lập trình giao diện ứng dụng API (Application Programming Interface);.
- các lập trình viên có thể phát triển các dịch.
- vụ bổ sung để tạo các hàm sử dụng cơ chế plugin vào môi trường khai thác CVT để cùng chia xẻ kinh nghiệm, ứng dụng.
- Khi cần, có thể hiệu chỉnh hàm GetSMSBrand mà không cần biên dịch hay sửa chữa bất cứ dòng lệnh nào tại nơi máy tính chứa phần mềm gọi nó..
- 3 Từ điển tra cứu chữ viết tắt trên máy di động:.
- Nghiên cứu này trình bày chi tiết hơn về xây dựng từ điển tra cứu CVT trên máy di động, nhằm minh họa một công cụ thực nghiệm xây dựng môi trường khai thác CVT..
- Ý tưởng thiết kế chương trình từ điển chữ viết tắt trên máy di động hướng đến môi trường khai thác thuận tiện cho NSD trên máy di động: Chương trình sử dụng trên máy di động tra cứu CVT theo cách thông thường, có chức năng tìm kiếm, tra cứu, thống kê.
- Chương trình thiết kế tối ưu hóa cho người sử dụng di động: chạy thường trú trong bộ nhớ máy di động, sử dụng tính năng copy trên máy di động.Khi người dùng cần tra cứu trực tiếp CVT trên file văn bản, email, web site…, nhấn màn hình cảm ứng trên cụm CVT để chọn khối, sau đó chọn copy vào vùng nhớ đệm, chương trình kích hoạt tìm kiếm CVT và hiển thị dữ liệu tra cứuvà tiếp tục công việc..
- Về cập nhật dữ liệu mới trên máy di động: CSDL trên máy di động (client) sẽ liên kết với thống web site www.chuviettat.com (lưu trữ trên server) để khi có CVT mới, dữ liệu mới này sẽ được cập nhật về máy di động [14]..
- Webserver chuviettat.com Dữ liệu mới.
- Đồng bộ dữ liệu về máy di động.
- 3.2 Đề xuất thuật toán xây dựng từ điển.
- Chúng tôi sử dụng kỹ thuật tìm kiếm FTS (Full Text Search) 4 để giải quyết yêu cầu thiết kế chương trình nêu trên..
- Mô tả: SOMA-FTS là thuật toán tìm kiếm chữ viết tắt trên di động - sử dụng FTS.
- NSD nhấn giữ trên màn hình máy di động;.
- Thống kê số tần số, tần suất sử dụng..
- Chưa tồn tại CSDL trong bộ nhớ hệ thống của điện thoại >.
- Sao chép toàn bộ các cơ sở dữ liệu T1 và T2 vào bộ nhớ hệ thống của điện thoại.
- Tăng tần số và tần suất truy vấn của CVT X lưu vào dữ liệu thống kê trên CSDL T1.
- Lấy thông tin thống kê tần số và tần suất của các CVT trên hệ thống..
- Hiển thị thống kê tần số và tần suất sử dụng của các CVT trên hệ thống.
- 3.3 Kết quả thực nghiệm xây dựng chương trình.
- Ưu điểm này rất phù hợp với việc tra cứu dữ liệu text lớn, đặc biệt với các CVT được thành lập theo quy tắc: CVT cấu thành bằng chữ đầu của cụm từ (acronym..
- Tuy vậy, có những nhược điểm nếu dùng kỹ thuật FTS trong trường dữ liệu text lớn: độ chính xác thấp, độ nhiễu cao, kết quả trả về sẽ rộng và có thể chứa nhiều kết quả nhiễu không mong muốn..
- So với các từ điển Online và các ứng dụng từ điển trên máy di động hiện nay: Các ứng dụng (vndic.net, vdict.com, tratu.soha.vn.
- chưa có tính năng tra cứu CVT, nhiều cụm từ viết tắt thông dụng không tìm thấy.
- Đặc biệt, từ điển trên máy di động tạo môi trường khai thác thuận lợi, cá nhân hóa việc sử dụng CVT, có kết nối liên thông với kho ngữ liệu CVT tập trung.
- Việc nghiên cứu trên cho thấy từ những hiện tượng sử dụng CVT, sự hình thành CVT trong sự phát triển ngôn ngữ tự nhiên, chúng tôi đã từng bước hệ thống hóa, chuẩn hóa CVT, ứng dụng CNTT xây dựng kho ngữ liệu, áp dụng kỹ thuật tìm kiếm mới (FTS), phát triển thành các công cụ ứng dụng, tạo lập môi trường khai thác CVT cần thiết cho NSD, đồng thời lưu trữ nguồn gốc CVT tạo sinh CVT..
- Các kết quả nghiên cứu góp phần ghi nhận, chụp ảnh hiện trạng CVT, đề xuất các giải pháp CNTT thúc đẩy con đường hình thành từ ngữ mới thông qua nhiều phương thức, con đường cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc, trong đó có phương thức viết tắt [2] [9], phát triển hệ thống từ vựng thông qua việc tạo ra từ, ngữ là CVT mới.
- từ đó góp phần phát triển hệ thống ngôn ngữ tiếng Việt..
- Lưu Tuấn Anh, Download dữ liệu các tập Corpus, http://viet.jnlp.org/download-du-lieu-tu-vung- corpus, 2012..
- Nguyễn Nho Túy, Phan Huy Khánh, Giải pháp ứng dụng chữ viết tắt chỉ mục cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số 9(106), trang .
- Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa, Đánh giá tần số sử dụng chữ viết tắt tiếng Việt trên Internet, Tạp chí KHCN ĐHĐN, Số 9 (106), tr.
- Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh, Giải pháp tư vấn đặt tên và sử dụng tin nhắn thương hiệu cho doanh nghiệp.
- Nguyễn Nho Túy, Web site thư viên chữ viết tắt.
- Phan Huy Khánh, Nguyễn Nho Túy, Nghiên cứu xây dựng cở sở dữ liệu chữ viết tắt cho dịch vụ 1080 Bưu điện Đà Nẵng, Kỷ yếu Hội thảo Khoa học Quốc gia “Một số vấn đề chọn lọc của CNTT&Truyền thông”, 2006..
- Hội Ngôn ngữ học Việt Nam, Danh sách chữ viết tắt xếp theo tần số, Hà Nội 2002..
- Huỳnh Công Pháp, Nguyễn Văn Huệ, Nghiên cứu thu thập và xây dựng cơ sở dữ liệu chữ viết tắt tiếng Việt, Tạp chí Khoa học Công nghệ ĐHĐN, Số .
- Thư viện chữ viết tắt, http://www.chuviettat.com..
- “Thời Của Các “Hệ Sinh Thái”, http://www.web2vietnam.com the-age-of-ecosystems/

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt