« Home « Kết quả tìm kiếm

Xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát


Tóm tắt Xem thử

- Phƣơng pháp phân cụm.
- CHƢƠNG II: BÀI TOÁN MÔ HÌNH CHỦ ĐỀ VÀ CÁC TIẾP CẬN ĐIỂN HÌNH.
- Tổng quan về mô hình chủ đề.
- Ứng dụng của mô hình chủ đề.
- Sử dụng mô hình chủ đề trong WSI.
- Xem bài toán WSI nhƣ một bài toán mô hình chủ đề.
- Hình 1.1: Ví dụ về mô hình siêu đồ thị.
- Hình 2.3: Mô hình hỗn hợp HDP.
- Hình 3.1: Mô hình hỗn hợp HDP.
- Hình 3.4: Mô hình HDP cho WSI.
- Hình 3.5: Hiệu suất của mô hình Brody và Lapata với số lƣợng ngữ nghĩa khác nhau.
- Luận văn tập trung vào việc áp dụng một mô hình Bayes phi tham số (Nonparametric Bayesian model.
- một mô hình Bayes có tham số của Blei và Jordan [3] cho vấn đề này, và còn đƣợc so sánh với phƣơng pháp của Blei và Lafferty [2] đó là Correlated Topic Model (CTM) với cùng một tập dữ liệu ở bài toán số 14 trong cuộc thi SemEval - 2010.
- Chƣơng 2: Bài toán mô hình chủ đề và các tiếp cận điển hình.
- Ở chƣơng này trình bày tổng quan về mô hình chủ đề, các tiếp cận điển hình nhƣ: LDA, CTM (mô hình Bayes có tham số.
- Brody và Lapata đã sử dụng LDA – một mô hình “túi từ” cho không gian mô hình ngữ cảnh và phân cụm.
- Hình 1.1: Ví dụ về mô hình siêu đồ thị (hình từ [9]).
- Trong năm 2007, Klapaftis và Manandhar [9] đã giới thiệu hệ thống U o Y dựa trên mô hình siêu đồ thị.
- Mục đích của đề tài là xây dựng hệ thống WSI dựa trên phƣơng pháp phân cụm theo ngữ cảnh và so sánh với hệ thống WSI khác đó là phƣơng pháp HDP – mô hình Bayes phi tham số.
- Tìm hiểu về mô hình chủ đề và các tiếp cận điển hình nhƣ HDP (mô hình Bayes phi tham số), LDA, CTM (mô hình Bayes có tham số)..
- Sau đó ta xây dựng một hệ thống WSI dựa vào phƣơng pháp HDP với dữ liệu ở quyết bài toán số 14 tại cuộc thi SemEval- 2010 và so sánh các phƣơng pháp khác cho WSI nhƣ LDA và CTM, ta thấy đƣợc ƣu điểm của mô hình HDP, đó là xác định tự động số lƣợng nghĩa biến đổi trên một từ trong khi đó LDA, CTM lại cần một số nghĩa.
- Nhƣ ở phần 1.3.3 thì mục đích của chúng ta là xây dựng một hệ thống WSI dựa vào phƣơng pháp HDP – mô hình Bayes phi tham số để ứng dụng vào công việc xử lý nhập nhằng ngữ nghĩa trong đó không gian ngữ cảnh của từ đƣợc phân cụm vào các chủ đề đại diện cho ý nghĩa của từ.
- Nhƣ vậy ở chƣơng này chúng ta đã tìm hiểu về WSD, WSI và nêu ra mục tiêu của luận văn là xây dựng một hệ thống WSI dựa vào mô hình HDP, sau đó so sánh với các mô hình LDA, CTM.
- Ba mô hình LDA, CTM và HDP chúng đều là mô hình chủ đề (topic models), vì vậy ở chƣơng tiếp theo chúng ta đi tìm hiểu chung về mô hình chủ đề và các tiếp cận điển hình..
- Tuy nhiên, phƣơng pháp này không mô tả sự thay đổi trong các chủ đề và mô hình hóa các mối quan hệ giữa các văn bản.
- Hầu hết các hệ thống mô hình chủ đề là không giám sát có nghĩa là chúng không yêu cầu bất kỳ dữ liệu nào đã đƣợc gán nhãn.
- Kết quả là, các hệ thống mô hình chủ đề có giá rẻ và dễ dàng tới cổng thông tin của miền dữ liệu mới.
- Tuy nhiên một số công việc đã chỉ ra rằng hiệu suất của các hệ thống mô hình chủ đề có thể đƣợc cải thiện bằng cách cung cấp cho chúng với các dữ liệu đƣợc gán nhãn..
- Trong phần tiếp theo của luận văn nghiên cứu một số loại mô hình chủ đề tiêu biểu mà cho thấy chúng mạnh hơn các phƣơng pháp khác và đƣợc các nhà khoa học sử dụng rộng rãi..
- Latent Dirichlet Allocation ( LDA) đƣợc đề xuất lần đầu tiên bởi Blei và cộng sự năm 2003 [3] và là một trong những mô hình chủ đề phổ biến nhất.
- Từ LDA, nhiều mô hình chủ đề khác đƣợc xây dựng bằng cách thay đổi một số thành phần của nó..
- LDA là một mô hình xác suất, trong đó chúng tôi giả sử rằng văn bản đƣợc tạo ra từ một quá trình sinh.
- LDA là một mô hình "túi từ".
- Bằng cách giả sử rằng các từ đƣợc hoán chuyển trong một văn bản, LDA đơn giản hóa kết quả mô hình nhanh chóng nhƣng là cách mô hình hóa các văn bản..
- Trong một số mô hình chủ đề giống pLSI, một văn bản chỉ có thể thuộc về một chủ đề..
- LDA làm giảm nhẹ giả định của pLSI để thực hiện một mô hình chủ đề linh hoạt và thực tế hơn..
- Nhƣ đã đề cập trƣớc đó, LDA là một mô hình sinh ra mà giả sử N từ trong văn bản w trong ngữ liệu D đƣợc tạo bởi quá trình sau đây:.
- Mô hình tiếp theo sửa đổi LDA để đạt đƣợc hiệu suất tốt hơn trong một số lĩnh vực cụ thể..
- Một hạn chế của mô hình LDA là nó không thể là mô hình trực tiếp thể hiện mối quan hệ giữa các chủ đề trong ngữ liệu.
- Bằng cách thay thế phân phối Dirichlet với hậu phân phối chuẩn đa biến, chúng ta đạt đƣợc mô hình thực tế hơn trong những chủ đề liên quan đến nhau.
- Vì thế CTM không hoàn toàn thay thế LDA trong tất cả các trƣờng hợp của mô hình chủ đề..
- Hạn chế của mô hình LDA là mối quan hệ giữa các chủ đề bởi vì giả thiết rằng các chủ đề phát sinh từ một phân phối Dirichlet làm cho các thành phần trong các véc tơ tỷ lệ gần nhƣ độc lập với nhau.
- CTM là một mô hình thực tế hơn bởi vì khả năng của nó để nắm bắt đƣợc mối tƣơng quan giữa các chủ đề..
- Mối tƣơng quan giữa các chủ đề đƣợc mô hình hóa bởi ma trận hiệp phƣơng sai của phân phối.
- Từ vựng: Từ vựng là một tập hợp của tất cả các từ khóa đƣợc sử dụng trong mô hình..
- Có K chủ đề trong mô hình và chúng đƣợc biểu thị bằng  1:K.
- Ở trên chúng ta xem rằng giả thiết của CTM gần nhƣ nhau tạo ra quá trình nhƣ LDA.Sau đây ta mô tả về quá trình sinh trong CTM, cho một mô hình với K chủ đề  1:K và một phân phối chuẩn K-chiều, một văn bản d với N d từ đƣợc giả thiết tạo ra từ quá trình sau đây:.
- và  của mô hình..
- Điều này hoàn thành định nghĩa về mô hình hỗn hợp HDP.
- Mô hình đồ thị tƣơng ứng đƣợc thể hiện trong hình 2.3.
- Hình chữ nhật biểu thị sự lặp lại mô hình nằm trong đó.
- Hình 2.3: Mô hình hỗn hợp HDP..
- Cách tiếp cận của mô hình chủ đề là không giám sát, đƣợc học từ dữ liệu không có nhãn tự động.
- Vì vậy, mô hình chủ đề có thể đƣợc áp dụng cho các loại dữ liệu bao gồm văn bản, siêu dữ liệu, dữ liệu di truyền, âm thanh, video và hình ảnh.
- Ở đây xem xét một số ứng dụng thành công nhất của các mô hình chủ đề..
- Mô hình chủ đề đƣợc sử dụng nhƣ là công cụ phận cụm văn bản là rất phổ biến trong học máy.
- Mô hình chủ đề cũng có thể áp dụng cho dữ liệu di truyền để tìm thông tin tổ tiên..
- Để sử dụng mô hình chủ đề các nhà nghiên cứu xem hình ảnh nhƣ văn.
- Sau đó các thuật toán mô hình chủ đề đƣợc đƣợc áp dụng để tìm "chủ đề”- sự kết hợp của các mô hình trực quan, trong cơ sở dữ liệu hình ảnh.
- Nhƣ đã đề cập trong phần 2.5, mô hình chủ đề có thể đƣợc áp dụng cho bài toán WSI.
- Trong phần này, chúng ta sẽ tìm hiểu cách sử dụng mô hình chủ đề nhƣ thế nào cho giải quyết bài toán WSI..
- Để làm bật vấn đề phân cụm ngữ cảnh vào bài toán mô hình chủ đề, chúng ta xem ngữ cảnh của từ nhƣ là văn bản (document) và ngữ nghĩa nhƣ là chủ đề (topics).
- Một mô hình với một số lƣợng lớn ngữ nghĩa đƣợc xây dựng cho tất cả các từ.
- Trong năm 2010, Wesam Elshamy và cộng sự đã xây dựng hệ thống KSU-KDD dựa trên kiến trúc tƣơng tự mà sử dụng LDA nhƣ mô hình chủ đề cơ bản.
- Cho 100 từ mục tiêu trong tập dữ liệu chuẩn đƣợc cung cấp bởi tổ chức SemEval - 2010, KSU - KDD xây dựng một mô hình duy nhất với 50 nghĩa và sử dụng mô hình đó đề kết luận nghĩa của từ.
- Một phƣơng pháp luận thuận lợi cho sử dụng ngữ cảnh địa phƣơng và xây dựng một mô hình cho mỗi từ.
- Đối với mỗi từ mục tiêu, một mô hình đƣợc xây dựng với số lƣợng nhỏ các nghĩa (ví dụ 3-10 ngữ nghĩa) (đối với LDA và CTM), và số lƣợng nghĩa sẽ tự động thay đổi (đối với HDP).
- Khi chúng ta muốn tạo ra các nghĩa của một từ, chúng ta lựa chọn mô hình tƣơng ứng và cố gắng để suy ra tỷ lệ chủ đề từ ngữ cảnh địa phƣơng của từ đó.
- Ở đây chúng ta tiếp cận một phƣơng pháp phân cấp cho bài toán phân cụm dựa trên mô hình của dữ liệu đƣợc phân nhóm.
- Một điều cũng phổ biến là xem các từ trong một văn bản nhƣ là sự phát sinh từ một số cụm từ tiềm ẩn hay “chủ đề”, trong đó một chủ đề thƣờng đƣợc mô hình hóa ở dạng phân phối đa thức trên các từ xuất hiện trong bảng từ vựng cơ sở nào đó.
- Hơn nữa, chúng ta có thể muốn mở rộng mô hình để cho phép nhiều ngữ liệu.
- Một số tác giả đã nghiên cứu các mô hình hỗn hợp quá trình Dirichlet nhƣ thế [17].
- Vì vậy chúng ta có mô hình xác suất sau đây:.
- Chúng ta có thể giải thích các phân phối có điều kiện dƣới dạng mô hình tách trà đơn giản trong đó một quả bóng khác màu đƣợc liên kết với mỗi nguyên tử.
- Một cách tiếp cận Bayesian phi tham số cho mô hình hóa dữ liệu nhóm, trong đó mỗi nhóm đƣợc gắn với một mô hình hỗn hợp và chúng ta muốn liên kết các mô hình hỗn hợp này.
- Tƣơng tự với các mô hình hỗn hợp quá trình Dirichlet, đầu tiên ta xác định tiên nghiệm phi tham số xấp xỉ, cái mà chúng ta gọi là quá trình Dirichlet phân cấp.
- Sau đó chúng ta chỉ ra cách mà tiên nghiệm này có thể đƣợc sử dụng trong việc thiết lập mô hình hỗn hợp theo nhóm.
- Hình 3.1: Mô hình hỗn hợp HDP..
- Điều này hoàn thành định nghĩa về mô hình hỗn hợp quá trình Dirichlet phân cấp .
- Mô hình đồ thị tƣơng ứng đƣợc thể hiện trong hình 3.1.
- đã chỉ ra rằng mô hình Bayes có tham số LDA, CTM có thể đƣợc sử dụng thành công cho nhiệm vụ này so với kết quả trƣớc đó đƣợc công bố cho các thành phần WSI của SemEval và SemEval .
- Các phƣơng pháp LDA, CTM và HDP đều đƣợc định nghĩa mô hình đồ họa tạo ra sự kết nối dữ liệu rời rạc.
- Hình 3.3 chỉ ra rằng mô hình LDA cho WSI.
- Tuy nhiên trong mô hình HDP, chúng tôi giả sử số lƣợng các thành phần hoạt động là không biết và cần đƣợc suy ra từ dữ liệu.
- Hình 3.4: Mô hình HDP cho WSI (Hình từ [16]).
- Hình 3.5: Hiệu suất của mô hình Brody và Lapata với số lượng ngữ nghĩa khác nhau (Hình từ [12]).
- Hiệu suất của các mô hình đƣợc đo bằng F-Score.
- Đƣờng nét liền thể hiện hiệu suất của mô hình đã huấn luyện trên bộ ngữ liệu Wall Street Journal (WSJ), đƣờng nét đứt thể hiện mô hình đó đƣợc huấn luyện trên một bộ ngữ liệu British National Corpus (BNC)..
- Trong luận văn này, chúng ta thử nghiệm HDP với dữ liệu ở bài toán số 14 tại cuộc thi SemEval 2010 thấy rằng ngoài ƣu điểm mà Xuchen Yao and Benjamin Van Durme đã nêu thì mô hình HDP vƣợt trội hơn so với LDA và CTM..
- Kết quả cụ thể của các mô hình trên đƣợc thể hiện trong chƣơng 4..
- Trong luận văn này, chúng ta sử dụng dữ liệu đƣợc cung cấp từ bài toán số 14 của cuộc thi SemEval tập dữ liệu này đƣợc mô tả chi tiết trong phần 4.1và chúng ta sử dụng chƣơng trình lda-c, ctm-c, hdp-c++ của David Blei và các cộng sự [4] để xây dựng các mô hình tƣơng ứng.
- Dữ liệu này sẽ đƣợc tiền xử lý để phù hợp với chƣơng trình của Blei và các cộng sự [4], tiếp theo chúng ta xây dựng mô hình huấn luyện, mô hình thử nghiệm.
- Hơn nữa, LDA, CTM, HDP là một mô hình túi từ.
- Với các mô hình đã xây dựng đƣợc, ta đi biểu diễn kết quả đầu ra của các mô hình theo định dạng sau:.
- Hệ thống của chúng ta.
- Trung bình 3 s/1mô hình (1 từ mục tiêu ) x 100 mô hình x 9 lần thí.
- Trung bình 5 s/1mô hình (1 từ mục tiêu ) x 100 mô hình x 9 lần thí.
- Trung bình 60 phút/1 mô hình (1 từ mục tiêu) x 100 mô hình = 6.000 phút..
- Trung bình 20 s/1 mô hình (1 từ mục tiêu) x 100 mô hình = 2.000 s..
- Mô hình chủ đề và các tiếp cận điển hình nhƣ HDP (mô hình Bayes phi tham số), LDA, CTM (mô hình Bayes có tham số).