« Home « Kết quả tìm kiếm

Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu


Tóm tắt Xem thử

- Một văn bản pháp luật thường có thể dài tới 15-20 trang hoặc thậm chí nhiều hơn.
- Một vụ việc có thể liên quan đến nhiều văn bản khác nhau.
- phải đọc rất nhiều văn bản và so sánh các điều, khoản trong đó với trường hợp đang xử lý.
- Theo một khảo sát năm 2013 tại Mỹ [19], trung bình, gần 47,3% số người được hỏi dành 15% thời gian, 36.6% số người dành 15-50% thời gian, 10.3% số người dành từ 50% thời gian trở lên mỗi tuần cho việc tìm kiếm và nghiên cứu văn bản pháp luật.
- Người sử dụng của một hệ thống tìm kiếm thông tin không chỉ muốn tìm những văn bản có chứa những từ khóa trong câu truy vấn mà còn quan tâm tới việc thu nhận được những văn bản mang lại thông tin phù hợp với mục đích tìm kiếm..
- Các hệ thống tìm kiếm thông tin thường biểu diễn văn bản và câu truy vấn dưới dạng các véc-tơ.
- Chất lượng biểu diễn văn bản và so sánh các véc-tơ biểu diễn có ảnh hưởng quan trọng tới kết quả.
- Gần đây, các kỹ thuật sử dụng học sâu cho thấy khả năng biểu diễn văn bản rất tốt trong xử lý ngôn ngữ tự nhiên nói chung và tìm kiếm thông tin văn bản nói riêng.
- Vì vậy, tôi chọn đề tài “Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu” cho luận văn của mình.
- Mục tiêu của luận văn là tìm hiểu các phương pháp biểu diễn văn bản và đề xuất mô hình sử dụng kỹ thuật học sâu ứng dụng trong tìm kiếm văn bản pháp quy tiếng Việt.
- Đầu ra của hệ thống là văn bản pháp quy có liên quan, trả lời.
- CHƯƠNG 1: Bài toán tìm kiếm thông tin và các phương pháp biểu diễn văn bản: Trình bày tổng quan về bài toán tìm kiếm thông tin và các phương pháp biểu diễn văn bản phục vụ tìm kiếm, tìm kiếm thông tin..
- CHƯƠNG 2: Ứng dụng biểu diễn văn bản bằng mạng nơ-ron sâu trong tìm kiếm văn bản pháp quy: Giới thiệu về bài toán tìm kiếm văn bản pháp quy, trình bày phương pháp biểu diễn văn bản sử dụng mạng nơ-ron sâu..
- BÀI TOÁN TÌM KIẾM THÔNG TIN VÀ CÁC PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN.
- Chương này sẽ trình bày tổng quan về bài toán tìm kiếm thông tin nói chung và bài toán tìm kiếm văn bản pháp quy nói riêng, bao gồm khái niệm, kiến trúc hệ thống và mô hình tìm kiếm thông tin, cùng với các phương pháp biểu diễn văn bản phục vụ tìm kiếm..
- Bài toán tìm kiếm thông tin.
- Tìm kiếm văn bản quy phạm pháp luật.
- Những vấn đề cần giải quyết của bài toán tìm kiếm thông tin - Biểu diễn tập tài liệu như thế nào?.
- Biểu diễn nhu cầu thông tin của người dùng như thế nào?.
- Bài toán tìm kiếm văn bản pháp quy.
- Ví dụ minh họa bài toán tìm kiếm văn bản pháp quy..
- Hệ thống tìm kiếm và tìm kiếm thông tin.
- Hoạt động của một hệ thống tìm kiếm thông tin được mô tả trong Hình 1.1, bao gồm ba bước chính: biểu diễn văn bản, biểu diễn truy vấn và so khớp – đánh giá độ liên quan giữa văn bản và truy vấn..
- Kiến trúc tổng quan của hệ thống tìm kiếm thông tin..
- Biểu diễn văn bản sử dụng từ khóa.
- Nó thường được dùng để làm trọng số trong việc thu thập thông tin và khai phá văn bản..
- Inverse document frequency: Tần số nghịch đảo văn bản - Document Length: Độ dài văn bản.
- Độ dài văn bản trong BM25.
- Công thức của TF-IDF chưa thực sự hoàn chỉnh, nó đúng với những văn bản có độ dài trung bình trong toàn bộ tập dữ liệu.
- Nếu độ dài văn bản quá ngắn hoặc quá dài so với độ dài trung bình, thì công thức trên sẽ cho kết quả thiếu chính xác..
- Tuy nhiên BM25 đã chỉnh sửa công thức tính lại để thêm khả năng đưa ra điểm âm khi tần suất xuất hiện của từ trên toàn bộ tập văn bản rất cao..
- 𝐷: tổng số văn bản.
- 𝑑: số lượng văn bản chứa từ t.
- Biểu diễn văn bản sử dụng chủ đề ẩn.
- LDA là một mô hình tự sinh xác suất cho các bộ dữ liệu rời rạc như bộ văn bản ký tự.
- Với một tập các văn bản (corpus) gồm 𝑀 văn bản ký hiệu là 𝐷 = {𝑑 1 , 𝑑 2.
- trong đó văn bản thứ 𝑚 trong tập văn bản sẽ có 𝑁 𝑚 từ, các từ trong văn bản sẽ được lấy từ tập từ vựng của các thuật ngữ (term.
- Mục đích của LDA là tìm ra cấu trúc ẩn của các chủ đề (topic) hay các lĩnh vực (concept) trong văn bản..
- Quá trình sinh trong LDA được mô tả như sau: LDA sinh ra một luồng các từ quan sát được 𝑤 𝑚,𝑛 (là các từ có trong nội dung văn bản), được phân chia thành các văn bản.
- Nghĩa là, với mỗi từ, một chỉ số chỉ thi chủ đề 𝑧 𝑚,𝑛 được lấy mẫu theo các văn bản – tỷ lệ trộn cụ thể, và sau đó phân phối chủ đề tương ứng 𝜑 ⃗ 𝑧 𝑚,𝑛 được sử dụng để sinh ra các từ.
- Các chủ đề 𝜑 ⃗ 𝑘 sẽ được lấy mẫu một lần cho mọi văn bản trong tập văn bản D..
- Với một mô hình LDA đã cho, có thể thực hiện suy luận ra các chủ đề có trong một văn bản mới chưa có trong tập văn bản huấn huyện bằng một tiến trình lấy mẫu tương tự..
- Nhiệm vụ cụ thể của việc suy luận này là từ một văn bản mới 𝒎.
- được biểu diễn bởi một véc-tơ các từ 𝒘.
- Biểu diễn văn bản sử dụng véc-tơ từ 1.4.1.
- Phương pháp biểu diễn văn bản bằng véc-tơ từ, hay biểu diễn bằng từ khóa phân tán, biểu diễn các từ dưới dạng véc-tơ có số chiều cố định và nhỏ hơn nhiều so với kích thước từ vựng.
- Giá trị của mỗi thành phần trong véc-tơ biểu diễn đều là số thực và có giá trị và thường khác 0 (không chỉ là 0 hay 1 như one-hot), do vậy cách biểu diễn này còn được gọi là biểu diễn đặc (dense) khác với biểu diễn thưa (sparse) kiểu one-hot..
- Mô hình này hướng đến việc phân tích ngữ nghĩa của từ và biểu diễn quan hệ giữa các từ thông qua véc-tơ biểu diễn của chúng..
- Cách biểu diễn của từ trong phương pháp này thu được thông qua tiến hành học máy (không giám sát) trên các mô hình ngôn ngữ mạng nơ-ron nhân tạo [21].
- Cuối quá trình huấn luyện, sau khi đã xác định trọng số người ta đưa từng từ vào đầu vào của mạng và lấy kết quả là biểu diễn dạng véc-tơ của từ ở đầu ra..
- Có 2 thuật toán học máy thường dùng trong việc học các biểu diễn từ của máy là CBOW (continuous bag of words) và Skip-gram..
- Biểu diễn văn bản sử dụng mạng nơ-ron sâu.
- Giới thiệu về mạng nơ-ron nhân tạo.
- Mô hình một nơ-ron nhân tạo..
- Phân loại mạng nơ-ron.
- Mạng nơ-ron truyền thẳng (Feed-forward Neural Network - FNN).
- Ví dụ đối với bài toán chat bot, đầu vào là một câu (gồm nhiều từ và rõ ràng các từ phải liên quan tới nhau), mỗi từ được biểu diễn bằng một véc-tơ và ta mong muốn sử dụng mạng nơ-ron để ghi nhớ ngữ nghĩa của câu đó..
- Mô hình mạng nơ-ron hồi quy..
- Các mạng nơ-ron sâu.
- Mạng nơ-ron nhân chập.
- Biểu diễn văn bản sử dụng mạng nơ-ron.
- Nhiều nghiên cứu đã sử dụng mạng nơ-ron để biểu diễn văn bản và thu được kết quả khả quan..
- Trong phần đầu của chương này, luận văn đã trình bày tổng quan về bài toán tìm kiếm thông tin nói chung và bài toán tìm kiếm văn bản pháp quy nói riêng, bao gồm khái, kiến trúc hệ thống và mô hình tìm kiếm thông tin..
- Chương này cũng đã trình bày về các phương pháp biểu diễn văn bản bao gồm:.
- biểu diễn sử dụng từ khóa, biểu diễn sử dụng chủ đề ẩn, biểu diễn sử dụng véc-tơ từ, biểu diễn sử dụng mạng nơ-ron sâu.
- Trong đó, phương pháp biểu diễn sử dụng từ khóa còn nhiều hạn chế, chưa biểu diễn được tốt về ngữ nghĩa, phương pháp biểu sử dụng mạng nơ-ron sâu đang cho thấy hiệu quả cao trong các nghiên cứu gần đây..
- Chương này sẽ đề xuất phương pháp biểu diễn văn bản sử dụng mạng nơ-ron nhân chập kết hợp với cơ chế Attention áp dụng cho bài toán tìm kiếm văn bản pháp quy..
- Mỗi điều luật được coi như một văn bản cần tìm kiếm.
- Mô hình gồm hai mô-đun chính là Mô-đun Biểu diễn truy vấn (Query Encoder) và Mô-đun Biểu diễn điều luật (Article Encoder).
- Sau đó cơ chế Attention sẽ được áp dụng để tính toán các biểu diễn của truy vấn hoặc điều luật..
- Mô-đun Biểu diễn truy vấn.
- Mô-đun này biến đổi truy vấn thành véc-tơ biểu diễn.
- Kiến trúc của Mô-đun Biểu diễn truy vấn..
- Mô-đun Biểu diễn điều luật.
- Thay vì xem như một chuỗi dài, mô hình xem điều luật như một đoạn văn tạo thành bởi các câu và sẽ được biểu diễn bằng kiến trúc phân cấp..
- Kiến trúc của Mô-đun Biểu diễn điều luật..
- Độ liên quan giữa một điều luật và một truy vấn được tính bằng tích vô hướng giữa hai véc-tơ biểu diễn của chúng..
- Chương này đã đề xuất phương pháp biểu diễn văn bản sử dụng mạng nơ-ron nhân chập kết hợp với cơ chế Attention áp dụng cho bài toán tìm kiếm văn bản pháp quy..
- Chương này sẽ trình bày quá trình xây dựng tập dữ liệu văn bản quy, câu hỏi về lĩnh vực pháp luật, việc ứng dụng phương pháp biểu diễn văn bản sử dụng mạng nơ-ron nhân chập kết hợp với cơ chế Attention để xây dựng hệ thống tìm văn bản pháp quy.
- Xây dựng tập dữ liệu văn bản pháp quy và câu hỏi.
- Xây dựng tập dữ liệu văn bản pháp quy tiếng Việt.
- Tập dữ liệu văn bản pháp quy sử dụng trong luận văn được thu thập từ trang vbpl.vn.
- Các văn bản được thu thập là các văn bản còn hiệu lực và thuộc các loại sau:.
- Elasticsearch cho phép lưu trữ dữ liệu và tạo chỉ mục theo phương pháp biểu diễn TF-IDF và BM25.
- Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn bản bằng mạng CNN kết hợp với cơ chế Attention.
- Tìm kiếm.
- Các điều luật trong tập dữ liệu văn bản pháp quy sẽ được tính toán biểu diễn sử dụng mô-đun Biểu diễn điều luật đã được huấn luyện.
- Sau đó, véc-tơ biểu diễn sẽ được lưu kèm với số hiệu văn bản và tên điều để có thể sử dụng được dễ dàng..
- Lưu trữ biểu diễn của các điều luật..
- Khi nhận một truy vấn, hệ thống sẽ biểu diễn nó thành véc-tơ bằng mô-đun biểu diễn truy vấn.
- Hệ thống sẽ tìm kiếm biểu diễn đã được lưu sẵn của các điều tương ứng trong tập kết quả đó.
- Tiếp theo, độ tương đồng giữa biểu diễn của câu truy vấn và từng điều sẽ được tính rồi dùng để xếp hạng và cho ra kết quả cuối cùng..
- Chương này đã trình bày quá trình xây dựng bộ dữ liệu văn bản và câu hỏi pháp quy.
- Tiếp theo đó là trình bày quá trình áp dụng các phương pháp biểu diễn văn bản để xây dựng hệ thống tìm kiếm văn bản pháp quy và thực so sánh hiệu quả dựa trên bộ dữ liệu đã xây dựng..
- Quá trình thực nghiệm đã cho thấy phương pháp biểu diễn văn bản sử dụng mạng nơ-ron nhân chập kết hợp với cơ chế Attention được đề xuất đã cho kết quả tốt hơn các phương pháp hiện có như TF-IDF, BM25..
- Luận văn tập trung nghiên cứu các phương pháp biểu diễn văn bản phục vụ truy xuất, tìm kiếm thông tin và đã đạt được một số kết quả sau:.
- Trình bày các phương pháp biểu diễn văn bản.
- Đề xuất phương pháp biểu diễn văn bản sử dụng mạng nơ-ron nhân chập và cơ chế Attention..
- Xây dựng bộ dữ liệu văn bản và câu hỏi pháp quy, áp dụng một số phương pháp biểu diễn văn bản để xây dựng hệ thông tìm kiếm thông tin, thử nghiệm và đánh giá các phương pháp đó..
- Trong tương lai, luận văn có thể tiếp tục được nghiên cứu theo hướng ứng dụng xây dựng hệ thống truy xuất văn bản trong một chủ đề xác định.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt