« Home « Kết quả tìm kiếm

TÌM HIỂU MÔ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT


Tóm tắt Xem thử

- TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MÔ HÌNH CRF.
- VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT.
- TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Loan TÌM HIỂU MÔ HÌNH CRF VÀ ỨNG DỤNG TRONG TRÍCH CHỌN THÔNG TIN TRONG TIẾNG VIỆT.
- Nội dung của khóa luận là tìm hiểu mô hình CRF, và ứng dụng của mô hình này trong trích chọn thông tin trong tiếng Việt.
- Để ứng dụng trích chọn trong tiếng Việt luận văn đã nêu ra được ba mô hình học máy trong đó tập trung chủ yếu vào mô hình Conditional Random Field –CRF.
- Luận văn cũng trình bày được việc ứng dụng mô hình CRF làm nền tảng lý thuyết và cơ sở thực hành là công cụ CRF vào bài toán trích chọn thông tin nhà đất.
- TRÍCH CHỌN THÔNG TIN.
- CÁC CÁCH TIẾP CẬN TRÍCH CHỌN THÔNG TIN.
- Hướng tiếp cận xây dựng các mô hình học máy.
- BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT.
- MÔ HÌNH MARKOV ẨN- HMM.
- MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM.
- MÔ HÌNH CONDITIONAL RANDOM FIELDS.
- Các ràng buộc đối với phân phối mô hình.
- Hàm tiềm năng của các mô hình CRF.
- So sánh với các mô hình khác.
- VÀ ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH CRF 24VÀ CÔNG CỤ CRF.
- ƯỚC LƯỢNG THAM SỐ CHO MÔ HÌNH CRF.
- MÔ HÌNH HÓA BÀI TOÁN TRÍCH CHỌN THÔNG TIN NHÀ ĐẤT.
- Một hệ thống trích chọn thông tin.
- Mô hình xây dựng IE theo hướng tiếp cận dựa trên tri thức.
- Mô hình xây dựng IE theo mô hình học máy.
- Tỷ lệ lỗi của CRF so với các mô hình học máy khác.
- Mô hình hoạt động của CRF++.
- Mô hình xử lý dữ liệu của bài toán trích chọn nhà đất.
- Trích chọn thông tin 2.
- Mô hình Markov ẩn 3.
- Mô hình cực đại hóa Entropy 4.
- Có rất nhiều phương pháp, trong luận văn này giới thiệu mô hình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc và công cụ CRF++ để thực hành trích chọn thông tin trong tiếng Việt và cụ thể là bài toán trích chọn thông tin nhà đất.
- Trong khuôn khổ của khóa luận tốt nghiệp với đề tài “Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt” em xin trình bày một công nghệ ứng dụng trong việc xử lý ngôn ngữ tiếng Việt.
- Chương 1: Tổng quan: Giới thiệu tổng quan về trích chọn thông tin, và các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng Việt, đồng thời cũng mô hình hóa và nêu được ý nghĩa của bài toán trích chọn thông tin nhà đất..
- Đồng thời cũng chỉ ra được rằng mô hình CRF hiệu quả hơn so với các mô hình học máy khác..
- Chương 3: Thuật toán gán nhãn và ước lượng tham số cho mô hình CRF và công cụ CRF.
- Chương này đưa ra hai vấn đề cơ bản của mô hình CRF và hướng giải quyết hiệu quả nhất.
- Và hai thuật toán T và thuật toán S giải quyết vấn đề ước lượng tham số cho mô hình CRF.
- Đồng thời cũng giới thiệu được công cụ CRF++ toolkit, một công cụ cài đặt mô hình CRF được sử dụng trong bài toán trích chọn thông tin nhà đất..
- Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất: Chương này nói về việc ứng dụng của mô hình CRF đã nói ở các chương trước vào bài toán trích chọn thông tin nhà đất.
- Chủ đề chính của khóa luận là tìm hiểu mô hình Conditional Random Field và ứng dụng trong trích chọn thông tin trong tiếng Việt.
- Có thể mô hình hóa việc xây dựng này theo hình 2 như sau:.
- Câu trả lời cho các giới hạn này là phải xây dựng một mô hình bằng cách nào đó có thể “tự học”.
- Mô hình với hướng tiếp cận này được mô tả qua hình 3 như sau: Các thuật học sẽ dựa trên dữ liệu để tự học và thu được một model, dựa trên model này nó sẽ trích chọn các thông tin trên dữ liệu mới..
- Tùy vào công việc và những điều kiện đã có mà ta có thể xây dựng hệ thống IE theo hướng các mô hình học máy hoặc theo hướng tiếp cận dựa tri thức.
- Còn với dữ liệu lớn thì nên xây dựng hệ thống IE theo mô hình học máy..
- Với mô hình trên thì tùy thuộc vào từng ngôn ngữ mà có các bài toán cụ thể và có những phương pháp xử lý cho phù hợp.
- Cũng như các bài toán trích chọn khác như: trích chọn thực thể, nhận dạng tên, trích chọn thông tin nhà đất cũng có các hướng tiếp cận khác nhau, trong luận văn này tập trung vào bài toán trích chọn thông tin nhà đất theo phương pháp học máy bằng cách sử dụng mô hình CRF.
- Một mô hình được đánh giá là có chất lượng cao đối với bài toán trích chọn thông tin..
- Mô hình Markov được giới thiệu vào cuối những năm 1960 [12].
- HMM là mô hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.
- Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp.
- Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát [21], và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất (hình 5 có thể mô tả rõ cho điều này)..
- xi — Các trạng thái trong mô hình Markov - aij — Các xác suất chuyển tiếp - bij — Các xác suất đầu ra.
- Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên các biểu hiện đầu ra có thể.
- Một số hạn chế của mô hình Markov để tính được xác suất P(Y,X) thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X.
- MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM Mô hình MEMM [4] thay thế các xác suất chuyển trạng thái và các xác suất sinh quan sát trong HMM bởi một hàm xác suất duy nhất P(Si | Si-1, Oi) (xác suất dịch chuyển từ trạng thái hiện tại là Si-1 tới trạng thái trước đó là Si với dữ liệu quan sát hiện tại là Oi) thay vì sử dụng P(Si | Si-1) và P(Oi | Si).
- Dưới đây là đồ thị có hướng mô tả cho mô hình MEMM..
- (2.3) MEMM coi dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng là các thành phần được sinh bởi mô hình như trong HMM vì thế xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát..
- Với mô hình này ta chia.
- 0 nếu ngược lại Vấn đề “label alias” gặp phải trong mô hình MEMM.
- Vấn đề gặp phải ở mô hình MEMM [14] “lable alias”.
- Trên đây là những vấn đề hạn chế của HMM và MEMM từ đó cho thấy nhu cầu cần thiết của mô hình CRF có thể giải quyết những hạn chế trên..
- MÔ HÌNH CONDITIONAL RANDOM FIELDS CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp [14] [11].
- CRF là mô hình dựa trên xác xuất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên.
- Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng.
- Chính những tính chất này của CRF mà mô hình này giải quyết được vấn đề “label bias”..
- Theo những nghiên cứu về mô hình Markov ẩn và mô hình cực đại hóa Entropy ở trên.
- CRF là một mô hình đồ thị vô hướng định nghĩa một phân bố tuyến tính đơn trên các chuỗi nhãn (trình tự nhãn) được đưa ra bởi các chuỗi quan sát được.
- CRFs thuận lợi hơn các mô hình Markov và MEMM.
- Ta có mô hình đồ thị vô hướng của CRF có dạng sau:.
- Mô hình phân biệt (discriminative models.
- Mô hình chuỗi (sequential models.
- Mô hình đồ thị vô hướng (Undirected graphical models).
- Nguyên lý cực đại hóa Entropy Laferty xác định các hàm tiềm năng cho các mô hình CRF dựa trên nguyên lý cực đại hóa Entropy [7].
- Độ đo Entropy điều kiện của một phân phối mô hình trên “một chuỗi trạng thái với điều kiện biết chuỗi dữ liệu quan sát ” p(y | x) có dạng sau:.
- Các ràng buộc đối với phân phối mô hình Vấn đề chính là phải tìm ra chuỗi p*(y|x) sao cho thỏa mãn hàm mục tiêu sau:.
- Các ràng buộc đối với mô hình được thiết lập bằng cách thống kê các thuộc tính được rút ra từ tập dữ liệu huấn luyện.
- Kỳ vọng của thuộc tính f theo phân phối xác suất trong mô hình.
- Từ công thức (2.11) có thể thấy rõ các ràng buộc của mô hình..
- Conditional Random Fields Mô hình CRFs cho phép các quan sát trên toàn bộ X, nhờ đó chúng ta có thể sử dụng nhiều thuộc tính hơn phương pháp Hidden Markov Model.
- θ(λ1 ,λ2…..,μ1, μ2) là các véctơ tham số của mô hình .
- Bản chất của phân phối toàn cục của CRF giúp cho các mô hình này tránh được vấn đề label alias .
- Qua đó thấy được rằng CRF có khả năng xử lý dữ liệu tốt hơn rất nhiều so với các mô hình khác như HMM hay MEMM..
- VÀ ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH CRF.
- Hai vấn đề quan trọng cần phải được đề cập đến khi nghiên cứu về mô hình CRF [8] đó là: thứ nhất khi đưa chuỗi nhãn y và một chuỗi quan sát x làm thế nào tìm ra một tham số λ của CRF để làm cực đại hóa xác suất p(y|x, λ) vấn đề này tạm gọi là huấn luyện (training).
- một công cụ xây dựng dựa trên mô hình CRF..
- Độ đo lilelihood giữa tập huấn luyện và mô hình điều kiện tương ứng p(y|x,θ) là:.
- Ở đây θ(λ1,λ2,...μ1,μ2) là các tham số mô hình và.
- Nguyên lý cực đại likelihood: các tham số tốt nhất của mô hình là các tham số làm cực đại hàm likehood..
- θML=argmax θL(θ) (2.21) θML đảm bảo những dữ liệu quan sát được trong tập huấn luyện sẽ nhận xác suất cao trong mô hình.
- Thay p(y|x, θ) của mô hình CRF vào công thức (2.14):.
- Hàm log-likelihood cho mô hình CRF là một hàm lõm và trơn trong toàn bộ không gian của tham số.
- Thực chất bài toán ước lượng tham số cho một mô hình CRF là bài toán tìm cực đại của hàm log-kikelihood.
- là một công cụ cài đặt mô hình CRF và được phân phối dưới dạng mã nguồn mở có thể dùng để phân đoạn và gán nhãn dữ liệu tuần tự [19].
- Bước này được thực hiện bằng tay Bước 2: Sử dụng mô hình CRFs để huấn luyện trên tập dữ liệu này.
- Với các khuôn mẫu này sẽ tạo ra các hàm đặc trưng để cho mô hình có thể “tự học” Ví dụ như.
- Chương này giới thiệu bài toán trích chọn thông tin nhà đất sử dụng mô hình CRF và sử dụng công cụ CRF++ để thực hiện.
- Một mô hình có thể phần nào đáp ứng được công việc này đó là Conditional Random Field.
- Với mô hình này có rất nhiều ứng dụng như gán nhãn, phân cụm, nhận biết các loại thực thể và trích chọn thông tin.
- Do các tham số của các mô hình thống kê có thể tự “học” được từ các kho ngữ liệu lớn.
- Với hướng phát triển như vậy việc ứng dụng mô hình Conditional Random Field vào các bài toán ứng dụng trong xử lý ngôn ngữ là rất cần thiết.
- Dữ liệu