« Home « Kết quả tìm kiếm

Trang 5 ĐỀ XUẤT PHƯƠNG PHÁP SO SÁNH VĂN BẢN DỰA TRÊN MỨC TƯƠNG QUAN VỊ TRÍ CỦA CÁC TỪ KHÓA


Tóm tắt Xem thử

- TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 ĐỀ XUẤT PHƯƠNG PHÁP SO SÁNH VĂN BẢN DỰA TRÊN MỨC TƯƠNG QUAN VỊ TRÍ CỦA CÁC TỪ KHĨA Phan Hiền, Thái Kim Phụng Trường Đại học Kinh tế TP.HCM TĨM TẮT: Đa số các phương pháp so sánh để xác định mức độ tương tự giữa các nội dung dạng văn bản với một văn bản gốc thường quan tâm nhiều về vai trị của từ khĩa và tần suất xuất hiện của chúng.
- Tuy nhiên, chúng tơi nhận thấy một sự thiếu quan tâm đến vai trị của vị trí các từ khĩa (chính xác là các tương quan về vị trí các từ khĩa).
- Tương quan về vị trí các từ khĩa giúp hình thành cấu trúc tương đối về vị trí các từ khĩa thể hiện cho một cấu trúc nội dung dựa trên từ khĩa.
- Chính vì thế, chúng tơi phát triển phương pháp so sánh để xếp hạng mức độ tương tự của các văn bản so với một văn bản gốc dựa trên mức tương quan vị trí từ khĩa, nhằm phục vụ trong một số nội dung dạng văn bản như thơng điệp, bình luận trên các trang mạng.
- Từ khĩa: tương quan vị trí từ khĩa, độ tương tự, so sánh văn bản, xếp hạng văn bản.
- CÁC PHƯƠNG PHÁP XÁC ĐỊNH ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN Việc xác định mức độ tương tự giữa các văn bản và tài liệu đĩng vai rị quan trọng trong 2.1.
- Phương pháp dựa trên chuỗi nhiều lĩnh vực như rút trích thơng tin, phân loại Độ tương tự dựa trên chuỗi là khoảng cách tài liệu, chấm điểm bài văn tự động, máy dịch và giữa hai chuỗi văn bản dùng cho mục đích so những ứng dụng tổng hợp tài liệu khác [7].
- Sự khớp hoặc đối sánh văn bản.
- Độ tương tự dựa trên tương tự giữa các văn bản, tài liệu là một khái chuỗi được chia thành hai loại chính là độ tương niệm phức tạp đã được thảo luận rộng rãi trong tự dựa trên ký tự (Character-Based Similarity) và các cộng đồng nghiên cứu về ngơn ngữ học, triết độ tương tự dựa trên từ khĩa (Term-based học và khoa học thơng tin.
- Các văn bản được Similarity).
- xem là tương tự nếu chúng cùng đề cập đến một Độ tương tự dựa trên ký tự: bao gồm các khái niệm, đối tượng hoặc hành động chung [5].
- 7], cĩ ba phương tác cần thiết để biến một chuỗi thành chuỗi cịn lại pháp xác định độ tương tự giữa hai văn bản: dựa [4], Jaro dựa trên số lượng và thứ tự của các ký tự trên chuỗi (String-based), dựa trên Corpus chung giữa hai chuỗi [6], Jaro-Winkler là một mở (Corpus-based) và dựa trên tri thức (Knowledge- rộng của Jaro, nĩ sử dụng độ đo tiền tố (prefix based).
- Tuy nhiên, hầu hết các phương pháp xác scale) để xếp hạng thuận tiện hơn [8], N-gram so định mức độ tương tự đều dựa trên bộ từ khĩa sánh n-gram từ mỗi ký tự hoặc từ trong hai chuỗi.
- mà ít quan tâm đến vai trị của tương quan vị trí.
- Khoảng cách được tính bằng cách chia số lượng Trong bài viết này, chúng tơi muốn đề xuất một n-gram tương tự cho số lượng n-gram lơn nhất phương pháp so sánh văn bản dựa trên tương [1].
- quan vị trí của các từ khĩa (hoặc cụm từ khĩa) để xác định mức độ tương tự giữa các nội dung Độ tương tự dựa trên từ khĩa, bao gồm các dưới dạng văn bản, là một cách tiếp cận khác thuật tốn: Hệ số Cosine [3] được tính bằng cho các ứng dụng liên quan đến khai thác văn cosine gĩc giữa ha vector từ khĩa (thuật ngữ) của bản (text mining).
- hai chuỗi, Hệ số Dice được tính bằng hai lần số lượng từ khĩa chung chia cho tổng số từ khĩa Trang 5 Science & Technology Development, Vol 13, No.K1 - 2010 trong cả hai chuỗi [2], Khoảng cách Euclidean là xem xét.
- Các văn bản nguồn cĩ thứ tự xếp cao căn bậc 2 của tổng bình phương các khác biệt nhất mang ý nghĩa cĩ mức độ tương tự với văn giữa các phần tử tương ứng của hai vector từ bản cần xem xét là cao nhất.
- khĩa, Độ đo Jaccard là số lượng từ khĩa chung trên tổng số từ khĩa riêng trong cả hai chuỗi [3.
- PHƯƠNG PHÁP SO SÁNH VĂN BẢN DƯA TRÊN VỊ TRÍ TƯƠNG QUAN 2.2.
- Phương pháp dựa trên Corpus Độ tương tự dựa trên Corpus là độ tương tự 3.1.
- Phát biểu bài tốn về ngữ nghĩa giữa các từ dựa vào thơng tin cĩ Giả sử cĩ một tập văn bản 𝐷 = {𝑑}.
- Bao các văn bản 𝑑 trong 𝐷 theo chiều hướng giảm dần gồm một các phương pháp: Hyperspace mức độ tương tự 𝑑𝑥.
- Chúng tơi đưa ra một số Analogue to Language (HAL), Latent Semantic định nghĩa để xếp hạng mức độ tương tự của các Analysis (LSA), Generalized Latent Semantic văn bản 𝑑 với văn bản 𝑑𝑥.
- Analysis (GLSA), Explicit Semantic Analysis Từ khĩa: Tập từ khĩa trong một đoạn được (ESA), The cross-language explicit semantic xem là những từ quan trọng để hình thành nên analysis (CLESA), Pointwise Mutual ngữ nghĩa của một văn bản đĩ.
- Một từ khĩa cĩ thể Information –Information Retrieval (PMI-IR), được gắn cùng với một tập các từ đồng nghĩa.
- Second-order co-occurrence pointwise mutual Từ khĩa chung: Tập từ khĩa chung của hai information (SCO-PMI) và Normalized Google văn bản là tập các từ khĩa giống nhau (hay giống Distance (NGD) [3].
- nhau về ngữ nghĩa) giữa hai văn bản.
- 2.3 Phương pháp dựa trên tri thức Mức độ tương tự: Dựa vào sự chiếm lĩnh các Độ tương tự dựa trên tri thức là độ tương tự mức chênh lệch từ khĩa trong một văn bản.
- về ngữ nghĩa bằng cách dựa vào thơng tin cĩ Chúng tơi đưa ra một giải thuật so sánh và xếp thứ được từ các mạng ngữ nghĩa (semantic tự các ma trận (chỉ cấu trúc tương đối về tương networks).
- WordNet là một mạng ngữ nghĩa phổ quan vị trí của các từ khĩa).
- biến nhất được dùng để đo độ tương tự giữa các Các tham số: Chúng tơi đưa ra một số quy từ.
- Độ tương tự dựa trên tri thức được chia làm 2 ước như sau: nhĩm: đo mức độ tương tự (similarity) về ngữ nghĩa và đo mức độ quan hệ (relatedness) về ngữ • Ngưỡng Φ: Để quyết định cĩ nên xác nghĩa [3].
- định mức độ giống nhau của văn bản 𝑑 Một số thuật tốn đo mức độ tương tự về so với 𝑑𝑥 hay khơng, chúng tơi đưa ra ngữ nghĩa bao gồm: Resnik (res), Lin (lin) Jiang một ngưỡng Φ chính là giới hạn của tỉ lệ & Conrath (jcn), Leacock & Chodorow (lch), tổng số từ khĩa chung của 𝑑, 𝑑𝑥 trên Wu & Palmer (wup) và Path Length (path).
- tổng số từ khĩa của văn bản 𝑑𝑥.
- Biên Δ: Được xem như là biên độ mở Một số thuật tốn đo mức độ quan hệ về ngữ rộng mức độ chênh lệch (dùng để so sánh nghĩa bao gồm: St.Onge (hso), Lesk (lesk) và các ma trận chỉ cấu trúc tương đối về vector pairs (vector).
- tương quan vị trí của các từ khĩa).
- Ta cĩ Nhận thấy hầu hết các phương pháp xem xét điều kiện Δ ≥ 0.
- mức độ tương tự giữa các văn bản nguồn so với • Ngưỡng Ω: Cĩ giá trị bằng 0 nếu như một văn bản cần xem xét mà dựa trên bộ từ khĩa người dùng xem mức chênh lệch cĩ giá đều ít quan tâm đến vai trị của tương quan vị trí trị là 0 khơng quan trọng nhất và thay các từ khĩa.
- Chúng tơi quan tâm đến điều này vào đĩ là sự quan trọng nhất vào một như một mơ tả cấu trúc tương đối về tương quan nhĩm các mức chênh lệch theo biên độ vị trí của các từ khĩa giữa văn bản cần xem xét Δ.
- Tuy nhiên nếu ngưỡng cĩ trị khác 0, với các văn bản nguồn và sử dụng cấu trúc đĩ để xếp thứ tự các văn bản nguồn so với văn bản cần Trang 6 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 thì người dùng quan trọng nhất đến mức của văn bản 𝑑𝑥 ký hiệu là 𝑇𝐾𝑑𝑥 .
- Chúng tơi chỉ chênh lệch cĩ giá trị là 0.
- tiếp tục xét mức độ tương tự của văn bản 𝑑 so với |𝑇𝐾| Vậy biên độ mở rộng cho so sánh Δ và giá 𝑑𝑥 nếu như |𝑇𝐾.
- Giá trị này cĩ thể được cung Chúng tơi xác định tập vị trí từ khĩa chung cấp bởi những người cĩ kinh nghiệm hay theo 𝑽𝑻𝑻𝑲 = {(𝒕𝒌, 𝒗𝒕𝒅𝒙, 𝒗𝒕𝒅.
- |𝐕𝐓𝐓𝐊| 𝒊 ≤ 𝒋 → 𝒗𝒕𝒅𝒙𝒊 ≤ 𝒗𝒕𝒅𝒙𝒋 } (1) 3.2 Phương pháp đề xuất Trong đĩ 𝑡𝑘 ∈ 𝑇𝐾.
- Để cĩ thể xếp hạng được mức độ tương tự Trong đĩ 𝑣𝑡𝑑𝑥 là vị trí xuất hiện 𝑡𝑘 trong văn của các văn bản trong tập {𝑑} so với một văn bản 𝑑𝑥, 𝑣𝑡𝑑 là vị trí xuất hiện 𝑡𝑘 trong văn bản 𝑑 bản, chúng tơi đề xuất quy trình bao gồm 2 bước của một lần tìm thấy 𝑡𝑘 nếu như lần này 𝑡𝑘 được lớn như sau: tìm thấy trong cả 2 văn bản.
- Bước 1: Xác định ma trận phần trăm tần Trong đĩ 𝑣𝑡𝑑𝑥 là vị trí xuất hiện 𝑡𝑘 trong văn suất các mức chênh lệch của các tương quan vị bản 𝑑𝑥, 𝑣𝑡𝑑 là vị trí xuất hiện 𝑡𝑘 lần cuối cùng trí của các cặp từ khố chung của văn bản 𝑑𝑥 so trong văn bản 𝑑 của một lần tìm thấy 𝑡𝑘 nếu như với một văn bản bất kỳ trong tập {𝑑} được minh lần này 𝑡𝑘 chỉ được tìm thấy trong 𝑑𝑥.
- Xác định tập từ khĩa chung của 2 văn bản 𝑑𝑥, 𝑑 được ký hiệu là 𝑇𝐾 = {𝑡𝑘}, tập từ khĩa 𝑑𝑥 Xác định tâp các Xác định tập từ bộ chỉ vị trí từ khố chung khố chung trong 𝑇𝐾 𝑇𝐾 𝑑𝑥 và 𝑑 𝑉𝑇𝑇𝐾 𝑑 𝑉𝑇𝑇𝐾 Xác định ma trận phần Xác định ma trận các mức chênh lệch trăm tần suất 𝑃𝐶𝐿𝑑𝑥,𝑑 𝐶𝐿𝑑𝑥,𝑑 𝐶𝐿𝑑𝑥,𝑑 Hình 2: Quy trình bước 1 Các phần tử thuộc tập vị trí từ khĩa chung Với 𝑣𝑡𝑑𝑥𝑖 , 𝑣𝑡𝑑𝑖 là các giá trị 𝑣𝑡𝑑𝑥 , 𝑣𝑡𝑑 được xếp tăng dựa vào 𝑣𝑡𝑑𝑥 .
- Tiếp đến, chúng tơi định nghĩa ma trận mức Cuối cùng, chúng tơi định nghĩa ma trận phần chênh lệch là tập hợp các mức chênh lệch của trăm tần suất là tập hợp phần trăm tần suất của các các tương quan vị trí giữa các cặp từ khố chung mức chênh lệch từ ma trận mức chênh lệch của của 2 văn bản 𝑑𝑥 và 𝑑 như sau: văn bản 𝑑𝑥 với 𝑑 như sau: 𝑪𝑳𝒅𝒙,𝒅 = [𝒄𝒍𝒊𝒋.
- |𝑽𝑻𝑻𝑲 Trang 7 Science & Technology Development, Vol 13, No.K1 - 2010 Trong đĩ: 𝐶𝐿𝑑𝑥,𝑑 mà chỉ được tính trên những phần • 𝑤 chính là giá trị lớn nhất trong ma trận tử 𝑐𝑙𝑖𝑗 ∈ 𝐶𝐿𝑑𝑥,𝑑 thỏa điều kiện 𝑗 > 𝑖.
- 𝐶𝐿𝑑𝑥,𝑑 Bước 2: Xếp hạng mức độ tương tự với văn • 𝑣 = |𝑉𝑇𝑇𝐾|, chính là độ lớn của tập vị bản 𝑑𝑥 của các văn bản trong tập {𝑑1 , 𝑑2.
- trí từ khĩa chung 𝑉𝑇𝑇𝐾 Chúng tơi đề nghị phương pháp được minh hoạ • 𝑘 là đại diện cho mức chênh lệch trong qua Hình 3: ma trận 𝐶𝐿𝑑𝑥,𝑑.
- 𝐹𝑅𝐸𝐶𝐿𝑑𝑥,𝑑 (𝑘) là tổng số lần xuất hiện của mức chênh lệch 𝑘 trong ma trận 𝑑1 𝑑2 𝑑3 𝑑𝑛 𝑑𝑥 Xác định ma trận phần trăm tần suất các mức chênh lệch 𝑃𝐶𝐿𝑑𝑥,𝑑1 𝑃𝐶𝐿𝑑𝑥,𝑑2 𝑃𝐶𝐿𝑑𝑥,𝑑3 𝑃𝐶𝐿𝑑𝑥,𝑑𝑛 Xếp hạng các đoạn 𝑑1 , 𝑑2 , 𝑑3.
- 𝑑𝑛 Hình 3: Quy trình bước 2 Với tập các văn bản {𝑑} ta cần xếp thứ hạng nhanh.
- Đồng thời bên trong những thuật tốn của các 𝑑𝑖 ∈ {𝑑} dựa vào mức độ tương tự của xếp thứ tự này luơn cĩ một phần là thuật tốn để 𝑑𝑖 với 𝑑𝑥.
- Chúng tơi đề nghị tính từng ma trận so sánh một cặp bất kỳ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 , 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 .
- Ở đây phần trăm tần suất 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 theo cơng thức số là so sánh giữa 2 ma trận với nhau, vì thế chúng (3), sau đĩ chúng tơi so sánh các 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 với tơi đề xuất thuật tốn so sánh 2 phần từ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 nhau để xác định thứ tự của các văn bản 𝑑𝑖 theo và 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 như sau: mức độ tươmg tự 𝑑𝑥 .
- Nếu ngưỡng Ω ≠ 0 thì khi đĩ chúng tơi làm Để làm được việc so sánh này, chúng tơi sử từ bước 1.
- Đây mang ý nghĩa việc so sánh coi dụng biên Δ cho thuật tốn so sánh và ngưỡng Ω trọng mức chênh lệch cĩ giá trị là 0.
- để quyết định yếu tố mức chênh lệch cĩ giá trị là Nếu ngưỡng Ω = 0 thì khi đĩ chúng tơi bắt 0 quan trọng hay khơng.
- Biên độ Δ và ngưỡng Ω đầu xét các nhĩm mức chênh lệch đi từ mức là những giá trị mang tính định tính rất nhiều.
- chênh lệch = 0 và sử dụng biên độ Δ (điều đĩ Giá trị này cĩ thể được cung cấp bởi những được thể hiện bởi phương pháp làm từ bước 2 với người cĩ kinh nghiệm hay theo một quan điểm 𝑘 = 0).
- Đây mang ý nghĩa việc so sánh coi trọng nào đĩ.
- cả một nhĩm các chênh lệch.
- Để cĩ thể xếp hạng thứ tự tập các văn bản Chúng tơi trình bày thuật tốn so sánh/xếp {𝑑1 , 𝑑2.
- chúng tơi xếp hạng các đoạn mức độ tương tự của 2 văn bản so với một văn bằng chính việc xếp hạng các 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 với nhau.
- bản khác và dựa trên các mức chênh lệch như sau: Chúng tơi sử dụng thuật tốn xếp phổ thơng (như Bước 1: chèn, nổi bọt hay dùng phương pháp xếp Trang 6 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 Nếu 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 > 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 Nếu ∑𝑘+Δ 𝑘+Δ 𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 = ∑𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 0 0 𝑟 𝑟 thì 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≻ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 và kết thúc.
- Trong đĩ 𝑚𝑎𝑥𝐶𝐿 chính là mức chênh lệch Nếu 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 = 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 lớn nhất của 2 ma trận mức chênh lệch 0 0 thì ta thực hiện bước 2 với 𝑘 = 1 𝐶𝐿𝑑𝑥,𝑑𝑖 , 𝐶𝐿𝑑𝑥,𝑑𝑗 Bước 2: Sau đĩ chúng tơi tiến hành xếp thứ tự các văn Nếu 𝑘 ≤ 𝑚𝑎𝑥𝐶𝐿 thì bản trong tập {𝑑} dựa trên mức tương tự của Nếu ∑𝑘+Δ 𝑘+Δ chúng với văn bản 𝑑𝑥.
- Nhĩm chúng tơi cho 3 văn bản với các từ Nếu ∑𝑘+Δ 𝑘+Δ 𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑖 < ∑𝑟=𝑘 𝑝𝑐𝑙𝑑𝑥,𝑑𝑗 được đại diện bởi các ký tự như sau: 𝑟 𝑟 thì 𝑃𝐶𝐿𝑑𝑥,𝑑𝑖 ≺ 𝑃𝐶𝐿𝑑𝑥,𝑑𝑗 và kết thúc.
- Dữ liệu Tên văn bản Nội dung Từ khố 𝑎 EFABBBABEFAEAEBB A;B;F.
- A B Văn bản cần so sánh 𝑥 ABBDABCDEABECCBEBCD A.
- A B Chúng tơi tính cho cặp văn bản 𝑎 và 𝑥.
- B2: Tính được tập vị trí từ khố chung • B1: Từ khĩa chung của văn bản 𝑎 và 𝑥: của văn bản 𝑥 và văn bản 𝑎 thể hiện A.
- Bảng 1: Kết quả tập vị trí từ khố chung Từ khĩa chung A AB B B A AB B A A AB B B B 𝑣𝑡𝑥 𝑣𝑡𝑎 Bảng 3: Ma trận các mức chênh lệch Trang 5 Science & Technology Development, Vol 13, No.K Bảng 4: Ma trận phần trăm tần suất các mức chênh lệch Mức chênh lệch 𝑃𝐶𝐿𝑥,𝑎 𝑃𝐶𝐿𝑥,𝑐 Nhận thấy vị trí của từ khĩa A B trong văn nhiều hơn, hay nĩi cách khác thứ tự của văn bản bản 𝑎 được ghi lại hai lần cùng một giá trị ở lần 𝑎 và 𝑐 theo mức độ giống văn bản 𝑥 là [𝑐, 𝑎] (ý tìm thấy cuối cùng (vì từ khĩa A B xuất hiện nĩi văn bản 𝑐 giống văn bản 𝑥 nhất).
- trong văn bản 𝑥 đến 3 lần trong khi xuất hiện Vậy nếu chúng tơi chọn Φ = 0.5, Δ = 1 và trong văn bản 𝑎 chỉ 2 lần).
- Tương tự với từ khĩa Ω = 0 khi đĩ ta cĩ văn bản 𝑥 giống văn bản 𝑎 A.
- nhiều hơn, hay nĩi cách khác thứ tự của văn bản Xét từ khĩa B xuất hiện lần đầu và từ khĩa A 𝑎 và 𝑐 theo mức độ giống văn bản 𝑥 là [𝑎, 𝑐] (ý B xuất hiện lần thứ 3 trong Bảng 2, ta cĩ nĩi văn bản 𝑎 giống văn bản 𝑥 nhất).
- Trên văn bản 𝑥: cặp từ khĩa (A B.
- B) này Ở đây nhĩm chúng tơi thể hiện 2 biên độ lệch nhau khác nhau cho 2 thái độ của người đánh giá là Trên văn bản 𝑎: cặp từ khĩa (A B.
- B) này thống hay nghiêm trọng việc xét sự giống nhau lệch nhau các mức chênh lệch.
- Chênh lệch tương quan vị trí của cặp từ khĩa Trường hợp: Người đánh giá coi trọng mức (A B.
- B) trên 2 văn bản 𝑎 và 𝑥 là khơng lệch, khi đĩ nếu mức khơng lệch giống Dựng ma trận các mức chênh lệch của 2 văn nhau thì mới quan tâm đến các mức chênh lệch bản 𝑎 và 𝑥, ký hiệu là 𝐶𝐿𝑥,𝑎 .
- Sau đĩ, chúng tơi tính ma trận phần trăm tần suất Vậy nếu chúng tơi chọn Φ = 0.5, Δ = 2 và giữa văn bản 𝑎 và 𝑥.
- tương tự làm lại từ đầu cho Ω = 1 khi đĩ ta cĩ văn bản 𝑥 giống văn bản 𝑎 văn bản 𝑐 và 𝑥.
- Chúng tơi cĩ được ma trận được nhiều hơn, hay nĩi cách khác thứ tự của văn bản thể hiện trong Bảng 4.
- 𝑎 và 𝑐 theo mức độ giống văn bản 𝑥 là [𝑎, 𝑐].
- Việc so sánh hai ma trận này, chúng tơi đề 4.
- KẾT LUẬN nghị cách so từ mức chênh lệch thấp nhất, sau đĩ Bài viết này đã trình bày một phương pháp mới xét đến các mức chênh lệch lớn hơn (quan trong việc xem xét mức độ tương tự của các văn tâm đến Δ và Ω).
- Từ đĩ, chúng tơi xếp thứ tự các bản dựa trên những chênh lệch của tương quan vị văn bản 𝑎 và 𝑐.
- trí giữa các từ khĩa trong văn bản.
- Phương pháp này cĩ thể tìm ra những sự tương đồng về cấu Trường hợp: Người đánh giá khơng quan trúc bố trí tương đối của các từ khĩa trong văn trọng mức khơng lệch và đánh đồng với các mức bản và hơn thế là mở ra giải pháp cho việc tìm chênh lệch trong biên độ Δ.
- thấy sự tương đồng ngay khi các từ khĩa được Vậy nếu chúng tơi chọn Φ = 0.5, Δ = 2 và thay bởi những từ khác mà được coi là đồng Ω = 0 khi đĩ ta cĩ văn bản 𝑥 giống văn bản 𝑐 Trang 8 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 13, SỐ K1 - 2010 nghĩa.
- Trong các nghiên cứu tiếp theo, chúng tơi sẽ nhĩm chúng tơi cĩ thể sử dụng nguồn WordNet tiến hành thực nghiệm để đánh giá tính hiệu quả để lấy ra tập từ đồng nghĩa.
- Qua đây, chúng tơi so với các phương pháp truyền thống khi đĩ việc muốn đề xuất phương pháp này trong các ứng đề xuất phương pháp mới của chúng tơi sẽ thuyết dụng liên quan đến so sánh nội dung ở dạng văn phục hơn