« Home « Kết quả tìm kiếm

Tìm kiếm thông tin dựa trên ngữ cảnh


Tóm tắt Xem thử

- luận văn thạc sĩ khoa học TìM KIếM THÔNG TIN dựa trên ngữ cảnh ngành : công nghệ THÔNG TIN m∙ số BùI KHáNH LINH Ng−ời h−ớng dẫn khoa học : TS.
- 4 Mẫu vỏ đĩa CD luận văn thạc sĩ khoa học NGữ CảNH TRONG TìM KIếM THÔNG TIN ngành : công nghệ THÔNG TIN m∙ số BùI KHáNH LINH Hà Nội 2010 Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH LỜI CAM ĐOAN Tụi – Bựi Khỏnh Linh - cam đoan Luận văn này là cụng trỡnh nghiờn cứu của bản thõn tụi dưới sự hướng dẫn của TS.
- Hà Nội, ngày thỏng năm Tỏc giả Luận văn Bựi Khỏnh Linh Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH MỤC LỤC MỤC LỤC.
- Định nghĩa về một hệ tỡm kiếm thụng tin.
- Cỏc khỏi niệm cơ bản trong xử lý văn bản .
- Độ liờn quan giữa cỏc văn bản .
- Cỏc phương phỏp biểu diễn văn bản .
- Phõn tớch văn bản .
- Mụ hỡnh Boolean .
- Mụ hỡnh Vector .
- Biểu diễn văn bản bằng mụ hỡnh vector .
- Biểu diễn bằng mụ hỡnh tần số CHƯƠNG 2...Mễ HèNH BIỂU DIỄN VÀ KHAI THÁC THễNG TIN NGỮ CẢNH.
- Mụ hỡnh ngữ cảnh .
- Mục đớch của mụ hỡnh ngữ cảnh .
- Cỏc phương phỏp tiếp cận mụ hỡnh ngữ cảnh Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH .
- Ngữ cảnh trong hệ thống thụng tin .
- Mụ hỡnh ngữ cảnh theo yờu cầu.
- Cỏc kỹ thuật tỡm kiếm cú liờn quan .
- 48 Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH DANH MỤC HèNH Hỡnh 1.1.
- Quy trỡnh tỡm kiếm thụng tin.
- Biểu diễn văn bản bằng mụ hỡnh vector.
- Biểu diễn vector của khụng gian văn bản.
- Lưu lượng thụng tin ngữ cảnh trong SaiMotion.
- Cỏc kỹ thuật của mụ hỡnh ngữ cảnh.
- 37 Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH DANH MỤC BẢNG Bảng 1.1.
- Biểu diễn cõu truy vấn q.
- Vớ dụ biểu diễn vector thưa.
- Thuộc tớnh của ngữ cảnh nhận thức.
- 38 Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH LỜI NểI ĐẦU Trong vài thập kỷ gần đõy, mạng Internet đó làm cho thế giới như nhỏ lại.
- Là một thư viện khổng lồ, mạng Internet cho phộp chỳng ta truy xuất và lấy thụng tin từ bất kỳ đõu, bất kể khoảng cỏch địa lý.
- Tuy nhiờn, chớnh sự bựng nổ của Internet, đạt biệt là sự phỏt triển với tốc độ nhanh chúng và với số lượng lớn cỏc trang web làm cho việc tỡm kiếm thụng tin cũng trở nờn khú khăn hơn.
- Vỡ vậy, việc tỡm kiếm và thu được thụng tin phự hợp, chớnh xỏc trờn Internet là khú khăn.
- Chớnh vỡ lý do đú, cần thiết phỏt triển cỏc hệ thống tỡm kiếm thụng tin với mục đớch hỗ trợ người sử dụng tỡm kiếm thụng tin chớnh xỏc trờn Internet là một trong những vấn đề quan trọng được đặt ra.
- Với mục đớch tỡm hiểu về hệ thống tỡm kiếm thụng tin chớnh xỏc hơn, tỏc giả đó chọn “Ngữ cảnh trong tỡm kiếm thụng tin” làm đề tài nghiờn cứu cho luận văn thạc sỹ của mỡnh.
- Tỡm hiểu về cơ sở lý thuyết của tỡm kiếm thụng tin.
- Tỡm hiểu và nghiờn cứu cỏc mụ hỡnh biểu diễn và khai thỏc thụng tin ngữ cảnh.
- Về mặt bố cục, luận văn này gồm ba chương với những nội dung chớnh sau: Chương 1: Giới thiệu lý thuyết về tỡm kiếm thụng tin.
- Chương 2: Giới thiệu cỏc mụ hỡnh biểu diễn và khai thỏc thụng tin ngữ cảnh.
- Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH CHƯƠNG 1.
- Ngày nay Internet đó trở nờn quen thuộc với rất nhiều người, do đú thuật ngữ tỡm kiếm thụng tin xuất hiện từ khỏ sớm và thụng tin ở đõy cú thể là văn bản, hỡnh ảnh hoặc õm thanh… Phổ biến nhất là tỡm kiếm văn bản, đặc biệt là trong hệ tỡm kiếm thụng tin.
- Đụi khi, thuật ngữ này được dựng như là toàn bộ quỏ trỡnh từ việc xử lý văn bản tới phõn lớp và tỡm kiếm văn bản.
- Trong kho thụng tin vụ tận trờn Internet thỡ với hệ tỡm kiếm thụng tin là cụng cụ tỡm kiếm thụng tin hiệu quả mà người sử dụng cần.
- Người sử dụng luụn mong muốn rằng phải cú một cụng cụ nào đú để mỗi lần truy cập vào Internet họ sẽ lấy được những thụng tin cần thiết đang tỡm kiếm.
- Một hệ tỡm kiếm thụng tin là một phần mềm dựng để lưu trữ và quản lý thụng tin nằm trong cỏc tài liệu, giỳp người sử dụng tỡm kiếm được thụng tin mà họ quan tõm.
- Hệ thống này khụng giống như cỏc hệ trả lời cõu hỏi, vỡ nú cũn phải chỉ ra sự tồn tại và vị trớ những tài liệu chứa thụng tin cần thiết.
- Một số tài liệu tỡm kiếm được thỏa món yờu cầu của người sử dụng chỳng ta gọi là tài liệu phự hợp hoặc là tài liệu cú liờn quan.
- Một hệ tỡm kiếm hoàn hảo sẽ chỉ tỡm và đưa ra tài liệu liờn quan mà khụng đưa ra những tài liệu khụng liờn quan, tuy nhiờn hệ thống này là khụng tồn tại bởi thể hiện của tỡm kiếm là khụng đầy đủ và mức độ liờn quan phụ thuộc vào quan điểm chủ quan của từng người.
- Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH Tỡm kiếm thụng tin núi chung phải giải quyết những vấn đề như biểu diễn, lưu trữ, tổ chức và truy cập đến cỏc mục của thụng tin.
- Việc tổ chức và biểu diễn thụng tin giỳp người sử dụng dễ dàng truy cập được thụng tin mà họ đang quan tõm.
- Nhưng để tỡm kiếm một đặc điểm thụng tin theo yờu cầu của người sử dụng khụng phải là một cụng việc dễ dàng, đặc biệt với một cơ sở dữ liệu khổng lồ và đa dạng.
- Do vậy, một hệ tỡm kiếm thụng tin hoàn chỉnh luụn cú ba mụđun cơ bản sau: 1.
- Mụđun lập chỉ mục tài liệu 2.
- Mụđun tỡm kiếm trờn chỉ mục tài liệu theo cỏc cõu truy vấn của người sử dụng.
- Mụđun sắp xếp kết quả tỡm kiếm được.
- IRS Yờu cầu tỡm kiếm Xử lý biểu diễn truy vấn Xử lý biểu diễn lưu trữ Biểu diễn yờu cầu truy vấn trong IRS Biểu diễn tài liệu trong IRSĐối sỏnh Dữ liệu Dữ liệuTập thụng tin Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH Quỏ trỡnh xử lý biểu diễn lưu trữ thường được gọi là quỏ trỡnh lập chỉ mục tài liệu (Indexing).
- Quỏ trỡnh này giỳp lưu trữ tài liệu trong hệ thống.
- Quỏ trỡnh xử lý biểu diễn truy vấn, truy vấn biểu thị sự tương tỏc giữ hệ thống và người sử dụng, do đú quỏ trỡnh này khụng chỉ đưa ra một truy vấn phự hợp mà cũn phải thể hiện được sự dễ hiểu về yờu cầu của người sử dụng.
- Để mụ tả thụng tin yờu cầu một cỏch đầy đủ, người sử dụng khụng thể trực tiếp yờu cầu thụng tin sử dụng giao diện hiện thời của hệ tỡm kiếm.
- Mà họ phải chuyển đổi thụng tin yờu cầu này thành một truy vấn mà cú thể xử lý bởi hệ tỡm kiếm (hoặc hệ thu hồi thụng tin – IR: Information Retrieval).
- Thụng thường, phộp chuyển đổi này tạo ra một tập hợp từ khúa hoặc cỏc term chỉ số mụ tả khỏi quỏt yờu cầu của người sử dụng.
- Với một truy vấn, mục đớch chớnh của hệ IR là tỡm kiếm thụng tỡn mà cú thể trở nờn hữu ớch hoặc phự hợp với người sử dụng.
- Nhiệm vụ của phục hồi dữ liệu chớnh là việc xỏc định tài liệu chứa cỏc từ khúa xuất hiện thường xuyờn nhất trong truy vấn mà khụng cần thỏa món yờu cầu của họ.
- Trờn thực tế người sử dụng hệ thống IR quan tõm nhiều đến việc phục hồi thụng tin về một chủ đề hơn là việc khụi phục dữ liệu mà đỏp ứng một truy vấn đưa ra.
- Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH Tuy nhiờn, với một hệ thống khụi phục thụng tin, cỏc đối tượng tỡm kiếm cú thể khụng chớnh xỏc và cho phộp cú lỗi nhỏ.
- Nguyờn nhõn chớnh của sự khỏc nhau này việc khụi phục thụng tin luụn xử lý với tài liệu chưa ngụn ngữ tự nhiờn thường khụng cú cấu trỳc và cú thể khụng rừ nghĩa.
- Để đỏp ứng hiệu quả yờu cầu thụng tin của người sử dụng, hệ thống IR phải bằng cỏch nào đú “hiểu” được nội dung thụng tin của cỏc tài liệu trong một tập hợp và sắp xếp chỳng theo mức độ phự hợp của cõu truy vấn.
- Sự “hiểu” về nội dung này bao gồm việc trớch chọn cỳ phỏp, ngữ nghĩa từ văn bản và sử dụng thụng tin này để so khớp với thụng tin sử dụng.
- Ở đõy khụng chỉ hiểu để trớch chọn thụng tin mà cũn là cỏch sử dụng nú để quyết định mối liờn quan này như thế nào.
- Trong thực tế, mục đớch chớnh của hệ thống IR là tỡm kiếm tất cả những tài liệu liờn quan với truy vấn của người sử dụng mặc dự việc tỡm kiếm cú thể đưa ra một số tài liệu khụng thớch hợp với yờu cầu.
- Như vậy, khụi phục thụng tin là một quỏ trỡnh nhận dạng, xỏc định và chỉ ra tài liệu liờn quan dựa trờn mụ tả yờu cầu thụng tin của người sử dụng.
- Việc tỡm kiếm dựa trờn nội dung thực sự của tài liệu mà khụng phụ thuộc vào cỏc từ khúa gắn với tài liệu đú.
- Một số mụ tơ tỡm kiếm thụng tin nổi tiếng như hiện nay như Google, Yahoo.
- là những mụ tơ tỡm kiếm đưa ra danh sỏch cỏc tài liệu theo độ quan trọng của cõu truy vấn đưa vào.
- Để xõy dựng một hệ tỡm kiếm cú hiệu quả cao, trước hết tài liệu và truy vấn ở dạng ngụn ngữ tự nhiờn phải được riền xử lý và chuẩn húa.
- Xử lý biểu diễn lưu trữ và xử lý biểu diễn truy vấn liờn quan tới việc phõn tớch cỏc thụng tin, phõn lớp và tiến hành lưu trữ cỏc chỉ mục thụng tin dưới dạng cỏc tệp cú cấu trỳc, đặc biệt được tiến hành tuõn theo những thuật Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH toỏn riờng.
- Cỏc chỉ mục thụng tin sau quỏ trỡnh phõn tớch sẽ được lưu trữ trong cơ sở dữ liệu.
- Một số phương thức thụng dụng được sử dụng để biểu diễn văn bản mà tỏc giả nghiờn cứu bao gồm: i) mụ hỡnh Boolean, ii) mụ hỡnh vector, và iii) mụ hỡnh xỏc suất.
- Cỏc khỏi niệm cơ bản trong xử lý văn bản 1.2.1.
- Vớ dụ với văn bản: “Hụm nay trời mưa to quỏ”, cỏc từ khúa cú thể tỏch ra là: “Hụm nay”, “trời”, “mưa”, “to”, “quỏ”.
- Vỡ vậy, chỳng thường xuất hiện với mật độ lớn trong nhiều văn bản.
- Ngược lại, cỏc từ như Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH trong”, “này”, “tụi”, “khụng”, “tốt”, “lắm” chỉ mang tớnh hoàn thiện cấu trỳc ngữ phỏp cho cõu.
- Chỳng ta hoàn toàn cú thể bắt gặp chỳng trong những văn bản khỏc khụng thuộc chủ đề “thể thao” hay “búng đỏ”.
- Hai từ cú độ tương đồng càng cao, thỡ càng cú khả năng thay thế cho nhau trong văn bản.
- Trong luận văn này, hiện tượng từ đồng õm trong tiếng Việt Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH rất đỏng được quan tõm, vỡ nú gõy ra hiện tượng nhập nhằng nghĩa cho từ.
- Nếu khụng xử lý tốt việc khử nhập nhằng nghĩa cho cỏc từ đồng õm này, rất cú thể sẽ dẫn đến xỏc định chủ đề sai cho văn bản.
- Trọng số của thuật ngữ Trọng số của thuật ngữ là độ quan trọng hay hàm lượng thụng tin mà thuật ngữ đú mang lại cho văn bản.
- Nú là đại lượng dựng để đo sự khỏc biệt giữa văn bản chứ nú với cỏc văn bản khỏc.
- Đại lượng này thường được xỏc định bằng tay hoặc đỏnh giỏ bằng số lần xuất hiện của thuật ngữ trong văn bản và số lần xuất hiện của thuật ngữ đú trong văn bản khỏc.
- Khi số lần xuất hiện của thuật ngữ trong văn bản càng nhiều thỡ thụng tin nú mang lại càng lớn.
- Khi số lần xuất hiện của nú trong cỏc văn bản khỏc càng nhiều thỡ thụng tin nú mang lại càng ớt.
- Tỡm kiếm thụng tin theo ngữ cảnh Học viờn thực hiện: Bựi Khỏnh Linh – Lớp CH .
- Độ liờn quan giữa cỏc văn bản Độ liờn quan giữa hai văn bản là mức độ gần nhau về mặt nội dung của hai văn bản đú.
- Để lượng hoỏ độ tương tự này, người ta cú thể thụng qua cỏc mụ hỡnh toỏn học, mà chủ yếu là mụ hỡnh xỏc suất (đỏnh giỏ độ liờn quan theo tần suất xuất hiện của cỏc từ, ngữ...trong văn bản).
- Cỏc phương phỏp biểu diễn văn bản Tiến trỡnh biểu diễn văn bản đúng vai trũ hết sức quan trọng trong một hệ thống tỡm kiếm thụng tin.
- Tiến trỡnh này bao gồm cỏc bước cơ bản sau: i) Phõn tớch văn bản, ii) phõn lớp, và iii) lưu trữ thụng tin chỉ mục.
- Phõn tớch văn bản Phõn tớch văn bản là quỏ trỡnh tỡm kiếm, phõn tớch từ vựng và cỳ phỏp trong từng văn bản nhằm tỡm ra những chỉ mục thụng tin đặc trưng cho văn bản.
- Quỏ trỡnh phõn tớch văn bản nhằm xõy dựng một dạng thể hiện của văn bản mà mỏy tớnh cú thể hiểu được, thụng thường dạng biểu diễn của văn bản là tập hợp cỏc thụng tin chỉ mục của chỳng, được lưu trữ trong cơ sở dữ liệu.
- Việc đỏnh trọng số cỏc từ khúa trong quỏ trỡnh đỏnh chỉ mục là một vấn đề hết sức quan trọng trong tỡm kiếm thụng tin.
- Cỏc từ khúa sẽ cú trọng số bằng 0 nếu khụng xuất hiện trong văn bản và trọng số là 1 nếu xuất hiện trong văn bản.
- Cỏc từ khúa khụng cú trọng số thường được sử dụng trong mụ hỡnh Boolean truyền thống.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt