« Home « Kết quả tìm kiếm

Đề tài khoa học và công nghệ cấp cơ sở: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu


Tóm tắt Xem thử

- NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ.
- LIỆU TỪ KHO NGỮ LIỆU.
- Tổng quan về từ điển.
- Cơ sở dữ liệu từ điển.
- Các chuẩn dữ liệu từ điển.
- Kho ngữ liệu.
- CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU.
- Định dạng dữ liệu từ điển.
- Chuẩn bị dữ liệu.
- 2 CSDL Cơ sở dữ liệu.
- 4 KPDL Khai phá dữ liệu.
- Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org.
- Bảng 3.1: Kết quả thử nghiệm công cụ trích xuất dữ liệu từ điển.
- Tên đề tài: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu..
- Mục tiêu chính của đề tài là nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu:.
- Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.
- Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu..
- Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,….
- Nghiên cứu tổng quan từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển..
- Xây dựng công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu..
- Đã xây dựng được công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu..
- Lượng dữ liệu khổng lồ về tất cả các lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn đều có thể tìm thấy thông qua hệ thống mạng Internet.
- Qua khảo sát đã có nhiều công trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6], [9]..
- Tuy nhiên, các công trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu có sẵn hoặc chưa xử lý trên ngôn ngữ tiếng Việt..
- Với những thực trạng đó, tôi mong muốn nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.
- Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ.
- Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.
- Nghiên cứu cơ sở lý thuyết về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.
- Chương 1 trình bày lý thuyết tổng quan về khai phá dữ liệu, về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.
- Chương 2 trình bày đề xuất giải pháp, lý do lựa chọn phương pháp, kỹ thuật cho bài toán xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu..
- Chương 3 trình bày triển khai thực nghiệm xây dựng cơ sở dữ liệu từ điển, kết quả đạt được, chưa đạt được, hướng phát triển của bài toán.
- Chương này báo cáo trình bày cơ sở lý thuyết ban đầu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.
- Ngoài ra, các công trình nghiên cứu về xây dựng cơ sở dữ liệu từ điển mà bản thân đã nghiên cứu cũng được trình bày ngắn gọn trong chương này..
- Từ điển ngoại tuyến (offline).
- Hay các phần mềm miễn phí gần đây như Miltidictionary, Jtranslator,… Jtranslator là bộ từ điển đa ngôn ngữ sử dụng một định dạng cơ sở dữ liệu mở DICT của www.dict.org, chạy được trên các hệ điều hành khác nhau (Windows, Linux, Unix, Mac...)..
- Từ điển trực tuyến (online).
- Cơ sở dữ liệu từ điển.
- Vì vậy, một từ điển được xem là chất lượng khi mà số lượng vốn từ của nó lớn nên việc thiết kế cơ sở dữ liệu cho từ điển phải đảm bảo được tốc độ truy cập nhanh, khả năng bảo trì và mở rộng dễ dàng.
- Dữ liệu từ điển có thể tồn tại dưới rất nhiều định dạng khác nhau: dict.tab, spdict, dict.org..
- Các chuẩn dữ liệu từ điển 1.1.3.1.
- Định dạng dict.tab là dữ liệu dạng text lớn (từ vài Mb trở lên).
- Từ điển stardict sau khi sử dụng công cụ convert file stardict sang định dạng dict.tab.
- File dict.tab này chi là file text và sẽ là file để lấy dữ liệu cho từ điển vì định dạng của nó cực kỳ đơn giản và nó còn có một số tính năng bổ trợ từ điển rất tốt [2].
- Định dạng này được mô tả như sau: toàn bộ cơ sở dữ liệu của từ điển được lưu trữ trong 2 tập tin: một tập tin chỉ mục và một tập tin chứa nghĩa của từ..
- Mỗi dòng trong tập tin chỉ mục chứa dữ liệu của một từ và các dòng phân cách nhau bởi ký tự xuống dòng.
- Ví dụ: Cấu trúc tập tin chỉ mục của cơ sở dữ liệu từ điển lưu theo định dạng dict.org sau:.
- o 4 byte tiếp theo lưu số dữ liệu thừa phát sinh trong quá trình làm từ điển (hiện mới tạo nên nó =0, 4 chữ null).
- o Tên từ điển (abc) o Mã sắp xếp (en).
- Kho ngữ liệu 1.1.4.1.
- Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau..
- Kho ngữ liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả.
- Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức.
- Kho ngữ liệu (có thể) so sánh (Comparable Corpus).
- Hợp nhất dữ liệu từ điển [2]: Tác giả đã đề xuất phải pháp hợp nhất dữ liệu từ điển.
- Tức là từ nhiều cơ sở dữ liệu từ điển khác nhau về cấu trúc, định dạng.
- sau đó tiến hành hợp nhất cấu trúc dữ liệu, hợp nhất dữ liệu tạo nên một cơ sở dữ liệu từ điển lớn hơn và.
- Xây dựng cơ sở dữ liệu từ điển dựa trên kho ngữ liệu song song [6],[9]: xây dựng cơ sở từ điển dựa trên kho song ngữ Hungarian và Lithuanian [6], dựa trên kho song ngữ English-Germa, English-French,… [9].
- Chương 1 là cơ sở lý thuyết tổng quan cho sự nghiên cứu và đề xuất giải pháp xây dựng cơ sở dữ liệu bằng phương pháp trích rút từ kho ngữ liệu.
- Trong chương tiếp theo báo cáo đề xuất các giải pháp cũng như lựa chọn về kỹ thuật xây dựng cơ sở dữ liệu từ điển..
- Nếu như chương 1 đã trình bày tổng quan về cơ sở lý thuyết, nền tảng để có thể xây dựng cơ sở dữ liệu từ điển thì chương này báo cáo sẽ đề xuất giải pháp tổng thể xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các khi ngữ liệu.
- Qua khảo sát đã có nhiều công trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6].
- Vì vậy, bài toán đặt ra là chúng ta phải nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.
- Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ.
- Trên đây là mô hình các bước xây dựng bài toán xây dựng cơ sở dữ liệu từ điển..
- Và cuối cùng tao từ điển cho văn bản song ngữ..
- Như mô hình trên, tôi tóm tắt việc xây dựng cơ sở dữ liệu từ điển bằng 4 bước như sau:.
- Bước 1: Chuẩn bị dữ liệu.
- Bước 5: Tạo từ điển cho văn bản song ngữ.
- Bước 6: Làm mịn dữ liệu 2.2.2.
- Như đã phân tích dữ liệu chính là trái tim của bất kỳ chương trình phần mềm từ điển nào vì vậy người làm dữ liệu từ điển phải tìm được các kho ngữ liệu chất lượng.
- Càng tìm kiếm được nhiều kho ngữ liệu thì chất lượng của việc tạo dữ liệu từ điển sẽ càng tốt..
- Tạo từ điển cho văn bản song ngữ.
- Tạo từ điển bằng gióng câu và ví dụ từ kho ngữ liệu song ngữ 2.2.2.6.
- Làm mịn dữ liệu.
- Đây là công đoạn cuối cùng của chuỗi qui trình tạo dữ liệu từ điển.
- Sau khi hoàn thành quá trình tạo dữ liệu từ điển thì có thể sẽ có nhiều trường hợp dữ liệu bị trùng lặp hoặc các dữ liệu có thể kết hợp lại được với nhau nhưng chúng ta chưa kết hợp, thì mục đích của công đoạn này là sẽ đi làm giảm sự dư thừa dữ liệu để làm cho chất lượng của cơ sở dữ liệu được tốt hơn.
- Trong đề tài tôi chọn phương pháp MMSEG để tách từ tiếng việt trong đó có sử dụng từ điển Tiếng Việt..
- Trong dịch máy thống kê, trí thức dịch được học một cách tự động từ dữ liệu huấn luyện.
- Thay vào đó, trong cách tiếp cận thống kê, các giả định mô hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện..
- Ở báo cáo này tôi chọn lưu dữ liệu từ điển theo định dạng dict.org.
- Hơn nữa hiện nay có thể dễ dàng chuyển đổi qua lại giữa các định dạng dữ liệu của từ điển nên chúng ta có thể lưu dữ liệu từ điển ở bất cứ định dạng nào..
- Giải pháp tổng thể bài toán xây dựng cơ sở dữ liệu từ điển.
- Lúc này ta có thể xem như đã có đầy đủ về mặt cơ sở lý thuyết cũng như giải pháp xây dựng dữ liệu từ điển.
- Sau khi tìm hiểu tổng quan về lĩnh vực từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.
- Ta đã hoàn toàn có cơ sở vững chắc để có thể triển khai xây dựng dữ liệu từ điển.
- tiền xử lý dữ liệu và tách từ tiếng Việt.
- Phần (3) lưu dữ liệu từ điển theo định dạng dict.org..
- tiền xử lý dữ liệu và tách từ tiếng Việt:.
- tiền xử lý dữ liệu và giai đoạn tách từ tiếng Việt thì tôi sử dụng công cụ tách từ tiếng Việt vnTokenizer của tác giả Lê Hồng Phương.
- Phần (3) lưu vào file dữ liệu từ điển theo định dạng dict.org..
- Tôi tiến hành thử nghiệm trích xuất dữ liệu từ điển từ các kho ngữ liệu và được kết quả như sau:.
- Hơn nữa, với phương pháp này ta có thể luôn tạo được những dữ liệu từ điển mới từ các kho ngữ liệu mới và có được ngân hàng ví vụ cho từ điển từ kho song ngữ..
- Chương 3 đã triển khai thành công công cụ xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ các kho ngữ liệu.
- Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ liệu.
- Báo cáo đã trình bày nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.
- Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ liệu.
- Báo cáo cũng đã tiến hành thử nghiệm trên các kho song ngữ Anh- Việt và trích xuất được dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu.
- Kết quả này không cao tuy nhiên nó cũng đạt được một hiệu quả nhất định so với các công trình đã nghiên cứu trong lĩnh vực xây dựng cơ sở dữ liệu từ điển..
- Số lượng dữ liệu từ điển được trích xuất phụ thuộc vào chất lượng kho ngữ liệu..
- [2] Ngô Anh Vũ (2015), “Nghiên cứu giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ”, Luận văn Thạc Sĩ, Đại học Đà Nẵng.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt