« Home « Kết quả tìm kiếm

NGHIÊN CỨU XÂY DỰNG TIÊU CHUẨN BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN


Tóm tắt Xem thử

- Nhận dạng ngôn ngữ là một trong những nghiên cứu quan trọng được ứng dụng trong Internet và trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên khác như nhận dạng tiếng nói, nhận dạng chữ viết.
- Luận văn này mô tả một giải pháp hiệu quả nhận dạng ngôn ngữ Tiếng Anh và dễ dàng phát triển để nhận dạng các ngôn ngữ la tinh và phi la tinh .
- Khóa luận này đưa ra cái nhìn tổng quan về nhận dạng: các hướng tiếp cận nghiên cứu hiện nay.
- Trình bày về tổng quan bài toán nhận dạng ngôn ngữ tự nhiên và phát biểu dưới dạng của lý thuyết kiểm định giả thiết thống kê.
- Từ tổng quát bài toán, ta đưa ra bài toán thực tế đó là nhận dạng tiêu chuẩn bản rõ Tiếng Anh của ngôn ngữ tự nhiên (Nhận dạng bản rõ Tiếng Anh và dãy ngẫu nhiên trong tập mẫu).
- Cuối cùng là ứng dụng lý thuyết vào việc xây dựng kỹ thuật nhận dạng bản rõ Tiếng Anh của ngôn ngữ tự nhiên..
- 2CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG.
- Tổng quan về nhận dạng.
- Mô hình và bản chất của quá trình nhận dạng.
- Nhận dạng dựa trên phân hoạch không gian..
- Nhận dạng thống kê.
- Một số thuật toán nhận dạng tiêu biểu trong tự học.
- Nhận dạng theo cấu trúc.
- Mạng nơron nhân tạo và nhận dạng theo mạng nơron.
- 22CHƯƠNG 2: ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TOÁN NHẬN DẠNG NGÔN NGỮ TỰ NHIÊN.
- Mô hình xích Markov và phép kiểm định thống kê cho bài toán nhận dạng ngôn ngữ.
- 332.3.2 Phép kiểm định thống kê cho bài toán nhận dạng ngôn ngữ đã biết.
- KỸ THUẬT NHẬN DẠNG BẢN RÕ TIẾNG ANH CỦA NGÔN NGỮ TỰ NHIÊN.
- Nhận dạng (pattern of Recognition) là một lý thuyết toán học có nhiều ứng dụng trong thực tiễn, như nhận dạng tiếng nói, nhận dạng hình ảnh, nhận dạng chữ ký, phân loại ngôn ngữ v.v.v.
- Thông qua Internet, Em được biết trên thế giới cũng như trong nước đã có nhiều nhà nghiên cứu vấn đề này và đã có những phần mềm áp dụng cho nhiều lĩnh vực khác nhau: phần mềm nhận dạng tiếng việt, phần mềm nhận dạng vân tay, phần mềm kiểm soát E-mail trên hệ thống Internets.
- Trong khuôn khổ bản luận văn, tôi tập trung nghiên cứu, giải quyết bài toán nhận dạng ngôn ngữ (Recognition of language) tự nhiên dựa vào phân hoạch không gian (hay nhận dạng theo thống kê toán học), trong đó một lớp ngôn ngữ tiêu biểu được nghiên cứu đó là Tiếng Anh.
- trong khoa học, giúp ta nắm được kiến thức tốt và dễ dàng hơn trong việc chuyển sang nghiên cứu các vấn đề khác trong lĩnh vực nhận dạng.
- Tính tần số bộ đôi móc xích của ngôn ngữ Tiếng Anh · Nghiên cứu cơ sở của lý thuyết sác xuất – thống kê toán học · Nghiên cứu, xây dựng tiêu chuẩn nhận dạng và lập trình thể hiện thuật toán trên ngôn ngữ C..
- CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG 1.1.
- Nhận dạng (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning).
- Nhận dạng nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori) hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn.
- Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy hay học có thầy (supervised learning).
- Trong lý thuyết nhận dạng nói chung có ba cách tiếp cận khác nhau.
- Nhận dạng dựa vào phân hoạch không gian.
- Nhận dạng cấu trúc.
- Nhận dạng dựa vào kỹ thuật mạng nơ ron.
- Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người.
- Ba ví dụ cuối tạo thành lãnh vực con phân tích ảnh của nhận dạng với đầu vào là các ảnh số.
- Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng.
- Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay,v.v.
- Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X và được ký hiệu là:.
- X ={X1,X2,...,Xn} trong đó mỗi Xi biểu diễn một đối tượng.
- Không gian diễn dịch Không gian diễn dịch là tập các tên gọi của đối tượng.
- Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng.
- Quá trình nhận dạng đối tượng là một ánh xạ f: X.
- Nếu tập các quy luật và tập tên các đối tượng là biết trước như trong nhận dạng chữ viết (có 26 lớp từ A đến Z), người ta gọi là nhận dạng có thầy.
- Trường hợp thứ hai là nhận dạng không có thày.
- Đương nhiên trong trường hợp này việc nhận dạng có khó khăn hơn.
- Mô hình và bản chất của quá trình nhận dạng 1.1.2.1.
- Việc chọn lựa một quá trình nhận dạng có liên quan mật thiết đến kiểu mô tả mà người ta sử dụng để đặc tả đối tượng.
- Cách mô tả được lựa chọn sẽ xác định mô hình của đối tượng.
- Thí dụ, trong nhận dạng chữ, các tham số là các dấu hiệu:.
- Mô hình cấu trúc: Cách tiếp cận của mô hình này dựa vào việc mô tả đối tượng nhờ một số khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên.
- Bản chất của quá trình nhận dạng Quá trình nhận dạng gồm 3 giai đoạn chính [1.
- Lựa chọn mô hình biểu diễn đối tượng.
- Học nhận dạng..
- Khi mô hình biểu diễn đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học.
- Việc nhận dạng là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên.
- Mẫu cần nhận dạng sẽ được đem đối sánh với mẫu chuẩn để xem nó thuộc loại nào.
- Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:.
- Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng định lượng, mỗi đối tượng được biểu diễn bởi một vectơ nhiều chiều.
- Giả sử không gian đối tượng X được định nghĩa: X={Xi,i=1,2,...,m}, Xi là một vectơ.
- Trong một số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng.
- Lý thuyết xác suất có điều kiện được Bayes nghiên cứu khá kỹ và chúng ta có thể áp dụng lý thuyết này để phân biệt đối tượng..
- với X là đối tượng nhận dạng, Ci là các lớp đối tượng (lớp thứ i).
- Tùy theo các phương pháp nhận dạng khác nhau, hàm phân biệt sẽ có các dạng khác nhau.
- Nếu các đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ xác suất cho bởi:.
- Lý thuyết Bayes thuộc loại lý thuyết thống kê nên phương pháp nhận dạng dựa trên lý thuyết Bayes có tên là phương pháp thống kê.
- Quy tắc Bayes - Cho không gian đối tượng X = (X1,l =1,2,...,L(, với X1= (x1,x2,...,xp.
- Trường hợp lý tưởng là nhận dạng luôn đúng, có nghĩa là không có sai số.
- Thực tế, luôn tồn tại sai số ( trong quá trình nhận dạng.
- Vấn đề ở đây là xây dựng quy tắc nhận dạng với sai số ( là nhỏ nhất.
- Một số thuật toán nhận dạng tiêu biểu trong tự học Thực tế có nhiều thuật toán nhận dạng học không có thầy.
- Ở đây, chúng ta xem xét ba thuật toán hay được sử dụng: Thuật toán nhận dạng dựa vào khoảng cách lớn nhất, thuật toán K-trung bình (K mean) và thuật toán ISODATA.
- Sự phân lớp được hình thành dần dần dựa vào việc xác định khoảng cách giữa các đối tượng và các lớp.
- Thực nghiệm đã chứng minh kết quả nhận dạng không phụ thuộc vào phân lớp ban đầu..
- Nhận dạng theo cấu trúc 1.3.1.
- Giả thiết rằng mỗi đối tượng được biểu diễn bởi một dãy ký tự.
- Phương pháp nhận dạng ở đây là nhận dạng lôgic, dựa vào hàm phân biệt là hàm Bool.
- Cách nhận dạng là nhận dạng các từ có cùng độ dài..
- Thủ tục phân loại và nhận dạng ở đây gồm 2 giai đoạn: Giai đoạn đầu là giai đoạn xác định các quy tắc xây dựng, tương đương với việc nghiên cứu một văn phạm trong một ngôn ngữ chính thống.
- Trong nhận dạng cấu trúc, ta mới chỉ sử dụng được một phần rất nhỏ mà thôi..
- Ở đây, xin giới thiệu một ngôn ngữ có thể được áp dụng trong nhận dạng cấu trúc: Đó là ngôn ngữ PLD (Picture Language Description).
- Ngôn ngữ này thường dùng nhận dạng các mạch điện.
- Phương pháp nhận dạng Các đối tượng cần nhận dạng theo phương pháp này được biểu diễn bởi một câu trong ngôn ngữ L(G).
- Tập Vt chung cho mọi đối tượng..
- Quá trình học với các câu biểu diễn các đối tượng mẫu l nhằm xác định văn phạm G..
- Quá trình ra quyết định: Xác định một đối tượng X được biểu diễn một câu lx.
- Cũng như trong phân tích cú pháp ngôn ngữ, có phân tích trên xuống, dưới lên, việc nhận dạng theo cấu trúc cũng có thể thực hiện theo cách tượng tự..
- Việc nhận dạng theo cấu trúc là một ý tưởng và dẫu sao cũng cần được nghiên cứu thêm.
- Kết luận Có rất nhiều vấn đề nhận dạng khác mà chúng ta chưa đề cập đến như nhận dạng tín hiệu, nhận dạng tiếng nói, v.v.
- Các vấn đề này nằm trong lý thuyết nhận dạng.
- Mục đích của chương này nhằm cung cấp một cách nhìn tổng quan về nhận dạng.
- Các hướng nghiên cứu khác nhau hiện nay trên thế giới về lĩnh vực nhận dạng nói chung.
- CHƯƠNG 2: ỨNG DỤNG LÝ THUYẾT THỐNG KÊ TOÁN HỌC ĐỀ GIẢI BÀI TOÁN NHẬN DẠNG NGÔN NGỮ TỰ NHIÊN Kỹ thuật nhận dạng bằng thống kê toán học có nhiều ý nghĩa trong nghiên cứu và thực tiễn.
- Nó không những được ứng dụng trong nhận dạng ngôn ngữ mà còn đối với hình ảnh, âm thanh, tiếng nói v.v.
- Đó là ứng dụng kỹ thuật thống kê Toán học để nhận dạng các ngôn ngữ tự nhiên (lớp ngôn ngữ la tinh).
- xm} các đối tượng, mỗi đối tượng xi được đặc trưng bởi n tham số nào đó ( như vậy ta hoàn toàn có thể coi X là một tập con, hữu hạn trong không gian Euclid n chiều Rn).
- Cách giải quyết bài toán nhận dạng các ngôn ngữ tự nhiên: 1.
- Giải quyết bài toán nhận dạng các ngôn ngữ tự nhiên trong trường hợp số lớp K là đã biết và số lớp K là chưa biết.
- X được gọi là một đối tượng X.
- X, khi đó khoảng cách giữa hai đối tượng x và y được định nghĩa là:.
- S(G,G) được gọi là đại lượng đặc trưng cho sự “gần gũi” giữa các đối tượng xi trong tập G..
- m(1 là tập tùy ý các đối tượng, Sij = d(Xi , Xj) là khoảng cách giữa hai đối tượng Xi , Xj.
- -ii unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown unknown