« Home « Kết quả tìm kiếm

Tóm tắt và trích rút từ khoá tự động từ văn bản áp dụng trong thư viện điện tử


Tóm tắt Xem thử

- GIẦN QUỐC HƯNG TÓM TẮT VÀ TRÍCH RÚT TỪ KHÓA TỰ ĐỘNG TỪ VĂN BẢN ÁP DỤNG TRONG THƯ VIỆN ĐIỆN TỬ LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH XỬ LÝ THÔNG TIN - TRUYỀN THÔNG Giáo viên hướng dẫn: TS.
- Nguyễn Kim Khánh BỘ MÔN KỸ THUẬT MÁY TÍNH KHOA CNTT - TRƯỜNG ĐHBK - HÀ NỘI HÀ NỘI 10-2004 Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 1- GIẦN QUỐC HƯNG - LỚP CH 2002 MỤC LỤC GIỚI THIỆU CHUNG CHƯƠNG I CƠ SỞ LÝ THUYẾT 1.1 kh¸i niÖm c¬ b¶n.
- .24 CHƯƠNG II HỆ THỐNG TRÍCH RÚT TỪ KHÓA VÀ TÓM TẮT 2.1 Gi¶i thuËt.
- 38 Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 2- 2.3.1 §Õm c¸c kh¸i niÖm kiÕn thøc c¬ së.
- .68 Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 3- PHỤ LỤC A A TÀI LIỆU NGUỒN LỰA CHỌN LÀM THÍ NGHIỆM A.1 Kazakhstan.
- 2 Tãm t¾t dµi ( 30.
- 1 Tãm t¾t ng¾n ( 5.
- 54 Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 4- MỤC LỤC CÁC HÌNH H×nh 1.1 Sù ph©n tÝch gi¸ trÞ ®¬n cña mét ma trËn.
- .65 MỘT SỐ TỪ VIẾT TẮT TRONG LUẬN VĂN LSA Latent Semantic Analysis KEA Automatic Keyphrase Extraction DUC Document Understanding Conferences TF-IDF Term Frequency - Inverse Document Frequency FreqT Frequency Table Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 5- GIỚI THIỆU CHUNG Ngày nay, với sự phát triển nhanh chóng của mạng máy tính toàn cầu và sự bùng nổ thông tin, các kho dữ liệu số được hình thành ở khắp mọi nơi cũng như không ngừng gia tăng về dung lượng.
- Con người đã và đang đứng trước thực tế chìm ngập dữ liệu, nhưng thông tin thì vẫn luôn là cần thiết, thậm chí thiếu đối với họ.
- Sẽ rất đúng khi nói rằng chúng ta đang sống trong thời đại thừa thãi thông tin.
- Các thông tin trực tuyến thì không phải là ít ước lượng khoảng hơn một triệu bài báo khoa học hiện nay có sẵn trên Internet.
- Việc tăng lợi ích và số lượng thông tin đã tạo nên vị thế quan trọng cho các công cụ xử lý thông tin.
- Các chuyên gia trong lĩnh vực báo chí đến lĩnh vực chăm sóc sức khoẻ đến các lĩnh vực nghiên cứu khoa học cũng phải tốn rất nhiều thời gian cho việc quản lý thông tin hàng ngày.
- Việc trích rút những khái niệm được chứa đựng trong một số lượng lớn các văn bản.
- Để đơn giản hóa công tác tìm kiếm, phân loại và tổ chức thông tin, dùng một tóm tắt ngắn gọn thay cho một văn bản lớn, các nhà nghiên cứu có thể xem lướt qua tóm tắt xem có liên quan gì đến công việc của mình không, và có thể dễ dàng nhận ra những điểm nổi bật trong văn bản.
- Mục tiêu của chúng tôi là phát triển hệ thống tóm tắt, hệ thống này không chỉ trích rút những khái niệm liên quan nhất từ các nguồn văn bản đơn mà còn làm cho chúng rõ ràng mạch lạc hơn.
- Việc sinh ra các trích rút rõ ràng chặt chẽ từ các văn bản đơn dùng phương pháp phân tích ngữ nghĩa tiềm ẩn, các sản phẩm tóm tắt tự động nói chung, và các phương pháp trích rút nói riêng được đề cập trong luận văn này, là nhằm cải thiện tính mạch lạc chặt chẽ các tóm tắt.
- Chúng tôi trình bày và Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 6- thực hiện một thuật toán, thuật toán này xây dựng soạn đoạn trích đầu từ các câu chủ đề, và sau đó quay trở lại điền đầy các khoảng trống bằng các từ nối kết có điều kiện từ văn bản gốc, giữa các câu khác nhau về ngữ nghĩa.
- Kiến trúc tóm tắt được rút ra từ phương pháp so sánh độ tương tự về ngữ nghĩa bằng phân tích ngữ nghĩa tiềm ẩn (LSA), kỹ thuật phân tích nhân tố dựa trên mô hình không gian vector là một trong những phương pháp khôi phục thông tin.
- Chương 1: Tổng quan về trích rút từ khóa và tóm tắt tự động và hướng phát triển của hệ thống.
- Chương 2: Trình bày chi tiết các thuật toán, kiến trúc và hoạt động của hệ thống trích rút từ khóa và tóm tắt tự động.
- Sau khi hoàn thành luận văn với đề tài " Tóm tắt và trích rút từ khóa từ văn bản áp dụng trong thư viện điện tử", tôi hy vọng đây sẽ là một đề tài thú vị cho các hướng nghiên cứu trong tương lai, và là một tài liệu tham khảo tốt cho những ai quan tâm đến lĩnh vực "xử lý thông tin và truyền thông".
- Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 7- CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Các khái niệm cơ bản 1.1.1 Khái niệm trích rút từ khóa, và tóm tắt tự động Tóm tắt tự động Tóm tắt là phương pháp trích rút những khái niệm quan trọng nhất có trong văn bản và nó được cô đọng lại cho ngắn gọn, nhưng khi đọc nó vẫn thấy toát lên các ý chính được trình bày trong văn bản gốc.
- Bởi khó khăn trong việc hiểu ngôn ngữ tự nhiên một cách tự động nên việc tóm tắt tự động là việc trích rút những từ nguyên mẫu có trong văn bản gốc.
- Tóm tắt văn bản tự động là thiết kế một giải thuật, khi có một văn bản đi qua nó sẽ cho ra một tóm tắt hữu ích, ngắn gọn, dễ hiểu mà không cần sự can thiệp của con người.
- Văn bản tóm tắt phải chứa đựng các ý tưởng chính của tài liệu (chắt lọc các đặc điểm nổi bật trong văn bản gốc) và các tóm tắt liên quan đến truy vấn, và phải phản ánh được mức độ liên quan của một tài liệu với truy vấn cụ thể của người dùng.
- Thực hiện cô đặc một tài liệu thành một bản tóm tắt mà vẫn mang đầy đủ ý nghĩa, đòi hỏi các kỹ thuật thông minh.
- Phần lớn các hệ thống tóm tắt tập trung vào tóm tắt trích chọn là: lựa chọn các phần, hoặc các câu đầy đủ hoặc các đoạn có nghĩa từ tài liệu gốc và sắp xếp nó lại theo một thứ tự nào đó để tạo ra bản tóm tắt.
- Vấn đề này có thể thực hiện dựa vào tập các mô hình thống kê để chọn các từ, các câu và sắp xếp các từ, các câu này trong bản tóm tắt sao cho hợp lý.
- Sự khác nhau cơ bản với dịch tự động là hệ thống sẽ cho ra bản tóm tắt ngắn gọn hơn rất nhiều so với văn bản gốc.
- Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 8- Kích thước của tóm tắt có liên quan nguồn tài liệu, và nó được biết đến nhờ tỷ lệ nén tức là nó được cô đọng lại từ văn bản gốc (Nó được trích rút một cách thận trọng từng ký tự, từng từ, từng câu trong văn bản gốc).
- Vì thế một tóm tắt mà cô đọng lại được khoảng 15% so với văn bản gốc là khá nhỏ, và như vậy là hệ số nén khá cao.
- Nó có thể bị chi phối bởi quy cách hoặc chủ đề của dữ liệu cần tóm tắt.
- Tóm lại mục đích của tóm tắt là làm sao nắm bắt được thông tin chính, rõ ràng, mạch lạc từ trong văn bản gốc.
- Nhưng dù sao đi nữa nó vẫn có nhiều những hạn chế, và đó cũng là thách thức rất lớn đối với những người làm công tác xử lý thông tin như chúng ta.
- Trích rút từ khóa Các cụm từ khóa cung cấp tóm lược nội dung văn bản.
- Nhờ đó có thể sưu tập được lượng văn bản lớn ứng dụng phổ biến rộng rãi trong các thư viên điện tử, giá trị của các thông tin tóm tắt ngày càng tăng.
- Các từ khóa và các cụm từ khóa thực sự là hữu ích bởi vì chúng có thể làm sáng tỏ từng văn bản khác nhau.
- Chúng có thể ứng dụng trong các hệ thống tìm kiếm thông tin như việc mô tả các lại văn bản bằng truy vấn, như tìm kiếm các danh sách, hoặc kỹ thuật phân nhóm các tập văn bản.
- Bổ xung thêm là các cụm từ khóa có thể giúp người dùng có được nội dung của tập sưu tập, cung cấp sự xét đoán, và chỉ ra việc truy vấn có thể mở rộng đến đâu, để xem lướt qua văn bản thuận tiện bằng các cụm từ quan trọng trực quan.
- Các cụm từ khóa thường được nhập bằng tay.
- Trong nhiều ngữ cảnh có tính chất học thuật, các tác giả đã ấn định các cụm từ khóa cho văn bản.
- Các chuyên gia phân loại thường chọn các cụm từ và từ từ "từ vựng điều khiển" liên quan đến nội dung văn bản.
- Tuy nhiên, đa số các văn bản thường Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 9- không có từ khóa có sẵn vì vậy các kỹ thuật trích rút từ khóa tự động có lợi ích rất lớn.
- Một vài phương pháp đã được đề xuất cho việc tạo ra hoặc trích rút tóm tắt thông tin từ văn bản.
- Các từ khóa trong các lĩnh vực đặc trưng, có 2 cách tiếp cận khác nhau cơ bản: giữa việc gán từ khóa và việc trích rút từ khóa.
- Cả hai đều dùng các phương pháp học máy và đều phụ thuộc vào các mục đích đào tạo tập các văn bản với các từ khóa thực sự hấp dẫn.
- Việc gán các từ khóa đòi hỏi chọn lựa các cụm từ từ một bộ “từ vựng điều khiển”, bộ từ vựng điều khiển này nó mô tả nội dung văn bản.
- Các dữ liệu đào tạo kết hợp một tập các văn bản với mỗi cụm từ có trong tập từ vựng, và được xây dựng để phân loại cho mỗi cụm từ.
- Một văn bản được xử lý bằng một người phân loại, và gán chúng cho từng lĩnh vực rõ ràng.
- Trích rút cụm từ khóa ở đây không sử dụng bộ từ vựng điều khiển, nhưng được thay bằng cách chọn các từ khóa ngay từ chính văn bản cần xử lý.
- Nó tận dụng kỹ thuật thuộc về từ vựng và kỹ thuật tìm kiếm hoặc phục hồi thông tin để trích rút các cụm từ từ văn bản.
- Trong cách tiếp cận này dữ liệu đào tạo được dùng khớp với các thông số của thuật toán trích rút.
- Luận văn này mô tả một thuật toán trích rút mới, KEA (Keyword Extract Automatic) đơn giản và hiệu quả nó dùng thuật toán học máy Naïve Bayes cho đào tạo và trích rút cụm từ khóa.
- Việc đưa dữ liệu ra của KEA được miêu tả trong (bảng 1.1), nó chỉ ra các từ của 3 kiểu văn bản, và mỗi văn bản có 2 cột từ khóa một là từ khóa của tác giả đưa ra, và một là từ khóa của máy đưa ra.
- Các từ phổ biến sẽ được in nghiêng.
- Trong mỗi trường hợp thì các từ khóa của tác giả và các từ khóa được trích rút tự động hoàn toàn giống nhau, nhưng nó không quá khó để nhận biết từ khóa của tác giả.
- Mặc dù chúng tôi đánh giá cách hoạt động Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 10- của KEA bằng việc so sánh các từ khóa với từ khóa của tác giả đưa ra.
- Phần còn lại của luận văn này sẽ mô tả kỹ về thuật toán KEA, và cách thiết kế thuật toán, sau đó sẽ đưa ra các ví dụ và cách đánh giá các từ khóa ứng cử như thế nào, các thí nghiệm kiểm tra khả năng của thuật toán KEA và những ảnh hưởng của việc thay đổi các thông số trong quá trình trích rút.
- Tài liệu về thương mại điện tử Tài liệu về công nghệ thông tin Tài liệu về toán học anonymity atomicity auction electronic commerce privacy real-time security transaction atomicity auction customer electronic commerce intruder merchant protocol security third party transaction disordered systems gauge fields multigrid neural multigrid neural networks disordered gauge gauge fields interpolation kernels length scale multigrid smooth cut-elimination linear logic proof nets sharing graphs typed lambdacalculus cut cut elimination garbage proof net weakening Bảng 1.1: Các từ khóa được gán bởi tác giả và của máy 1.1.2 Kỹ thuật trích rút từ khóa và tóm tắt Mô hình không gian vector Xây dựng lại thông tin có nghĩa là sắp xếp lại từng từ, từng câu có nghĩa và loại bỏ những từ, những câu rườm rà để đưa ra được tóm tắt ngắn gọn nhưng vẫn đầy đủ ý, và việc xây dựng này được thực hiện một cách tự động.
- Có rất nhiều những nghiên cứu về tóm tắt tự động, thì thấy rằng trong lĩnh vực tổ chức sắp xếp lại thông tin, có một sự liên quan đặc biệt là có rất nhiều hệ thống sử dụng phương pháp mô hình không gian vector, để trích rút thông tin từ văn bản gốc.
- Cách tổ chức của chúng là, tạo một tập các câu được tổ chức thành một ma trận 2 chiều, những câu được tổ chức theo cột, và những câu được tổ chức thành hàng thường là các cụm từ ngắn xuất hiện trong câu.
- Đôi khi có những Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 11- từ mà nội dung ngữ nghĩa của nó không đáng kể mà nó vẫn được sắp xếp mô tả theo một hàng vì nó có thể là các giới từ, hư từ, hoặc từ vị.
- Điển hình là giá trị mỗi ô được điều chỉnh nhờ lý thuyết biến đổi thông tin.
- Ở đây Wi,J là: từ được tô đậm thứ i trong văn bản thứ J tfi,J là: tần suất xuất hiện từ thứ i trong văn bản thứ J N là: tổng số số văn bản Ni là: số các văn bản xuất hiện trong lần i Sau từ bôi đậm đó thì các cặp có thể so sánh theo từng vector cột, ta có thể áp dụng công thức toán học sau: BABAiiiBA.),cos.
- Một vài hệ thống tóm tắt tự động sử dụng mô hình vector không gian để so sánh các ngữ nghĩa giống nhau giữa các đơn vị ngôn ngữ chứa trong cùng một văn bản đơn.
- Phân tích ngữ nghĩa tiềm ẩn (LSA Latent semantic analysis) Phân tích ngữ nghĩa tiềm ẩn (LSA) là một kỹ thuật được phát triển đầu tiên cho giải pháp để tìm kiếm các từ đồng nghĩa, và các từ đa nghĩa trong trích rút thông tin.
- Nó là khái niệm cơ bản được chấp nhận và nó được ẩn dấu dưới cấu trúc ngữ nghĩa, và cấu trúc ngữ nghĩa này có thể nhận thấy được trong một ma trận.
- Phân tích ngữ nghĩa tiềm ẩn (LSA) được chú ý trong kỹ thuật xử lý ngôn ngữ tự nhiên, như phân tích cú pháp, xây dựng từ điển, xây dựng mạng Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 12- ngữ nghĩa hoặc có trong các công cụ khác.
- Cụ thể là, nó lợi dụng thuật toán phân tích đặc biệt, một định lý toán học đặc trưng trong đại số tuyến tính, định lý toán học đó xác nhận rằng có rất nhiều ma trận chữ nhật giá trị thực.
- Ví như ma trận các từ có thể được miêu tả như việc xây dựng 3 ma trận nhỏ từ một mẫu đặc biệt.
- Phần đầu tiên của ma trận này có các số giống nhau của các hàng như ma trận gốc, nhưng có một vài cột tương tự với các cột mới hình thành, đặc biệt nhận thấy là các thừa số không có sự tương quan từng đôi một trong các quan hệ toán học, thì chúng độc lập tuyến tính.
- Ma trận thứ 3 có các cột giống như nguyên bản và cũng chỉ có n hàng độc lập tuyến tính.
- Ở giữa ma trận là các đường chéo, các đường chéo này được biết như những giá trị đơn, không mất tính tổng quát, và các giá trị đơn lẻ này không tăng.
- Mục đích của ma trận có giá trị đơn lẻ này là sự thay đổi các thừa số trong 2 ma trận đầu khi ma trận 3 được sinh ra, và lúc đó ma trận gốc sẽ được khôi phục lại hoàn toàn Hình 1.1 minh họa sự phân tách của ma trận A với từng từ tách biệt t và các văn bản d trong 3 ma trận thành phần T, S, và DT.
- Các Từ Các văn bản Các giá trị đơn Các giá trị đơn Các giá trị đơn Các giá trị đơn Các văn bản Các Từ At × d = Tt × n × Sn × n × Dd × nT Hình 1.1: Sự phân tích giá trị đơn của một ma trận Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 13- Điều này có nhiều quan tâm hơn, khi có nhiều nhân tố cần thiết hơn được dùng để phục hồi ma trận gốc.
- Điều này có thể xóa một hoặc nhiều hơn một các giá trị nhỏ nhất từ ma trận giá trị đơn, điều đó là nguyên nhân các con số giống nhau ở các hàng và các cột từ ma trận thứ nhất và thứ ba lần lượt theo thứ tự định sẵn không kể đến trong khi thực hiện phép tính nhân.
- Trong trường hợp này sản phẩm của ba ma trận này sản sinh ra một ma trận vuông nhỏ phù hợp nhất với ma trận gốc.
- (Hình 1.2) Giá trị đơn nhỏ nhất n-k đã được xóa từ ma trận S, thực tế này gây nên việc giảm kích thước của ma trận T và DT càng nhỏ càng tốt.
- Sản phẩm mới  vẫn có t hàng và d cột, nhưng nó chỉ tương đương với ma trận gốc A.
- Việc thu nhỏ ngữ cảnh của một ma trận số liệu các văn bản, và các sự kiện liên quan, thì việc thu nhỏ này có nghĩa rằng: có nhiều từ có thể có tần suất xuất hiện nhiều lên hoặc ít đi trong việc xây dựng lại một ma trận mới hơn là ma trận gốc.
- Thực tế thì chắc chắn các từ có thể xuất hiện tại các đoạn nhỏ nhất trong các văn bản.
- Rõ ràng kết quả của các giá trị ma trận gần đúng Các Từ Các văn bản Các giá trị đơn Các giá trị đơn Các giá trị đơn Các giá trị đơn Các văn bản Các Từ Ât × d = Tt × k × Sk × k × Dd × kT Hình 1.2: Sự phân tích giá trị gần đúng của một ma trận Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 14- đã thu hút các mối liên hệ tiềm ẩn giữa các từ, nó cho phép xác minh các văn bản giống nhau về ngữ nghĩa đồng thời dùng chung một vài hoặc không dùng chung các từ phổ biến.
- Ví dụ: Thừa nhận rằng việc sưu tầm các văn bản có chứa các từ animal và dog, và một vài văn bản có chứa các từ animal và hound.
- Vả lại cũng thừa nhận rằng từ hound không bao giờ xuất hiện trong văn bản có chứa từ dog và ngược lại.
- Thậm chí dù từ dog và từ hound không bao giờ cùng xuất hiện nhưng việc làm đậm nó trong thống kê sẽ phản ánh trong ma trận LSA.
- Việc dùng luật cosin thì các văn bản có từ dog sẽ được tìm thấy khi tìm các văn bản chứa từ hound vì nó cùng ngữ nghĩa, và nó cũng được tìm thấy trong các văn bản có chứa từ animal.
- Đây là vấn đề đặc trưng của LSA, việc xác định số kích thước ma trận bằng cách giảm tỷ lệ ma trận đến mức độ nào đó.
- Việc giảm nhỏ kích thước của ma trận gốc bằng cách nắm bắt thông tin ngữ nghĩa tiềm ẩn.
- Kết hợp cụm từ khoá với các văn bản Có 2 cách tiếp cận để kết hợp cụm từ khóa với các văn bản là chỉ định từ khóa và trích rút từ khóa.
- Trong chỉ định từ khóa (cũng được biết đến như là phân loại văn bản), phân tích một văn bản dẫn dắt chọn lựa các từ khóa cho văn bản từ bộ từ vựng kiểm soát.
- Nó có 2 thuận lợi chính: từ vựng điều khiển đảm bảo giống các văn bản đã được phân loại phù hợp, và các văn bản có thể được kết hợp với các khái niệm mà các khái niệm đó không được đề cập rõ ràng trong văn bản.
- Tuy nhiên, cũng có những bất lợi: khả năng của các từ Luận văn thạc sĩ Trích rút từ khóa và tóm tắt Giần Quốc Hưng - Chuyên ngành xử lý thông tin và truyền thông -Trang 15- khóa có ích thì bị lờ đi nếu chúng không có trong tập từ vựng học, và các từ vựng điều khiển đòi hỏi ý kiến của giới chuyên môn luôn dành thời gian để xây dựng và bảo dưỡng, để thường xuyên có sẵn, có đủ, và chính xác Trong cách tiếp cận thứ 2 trích rút từ khóa, các đoạn trong một văn bản được phân tích có các từ và các cụm từ thích hợp nhất, các từ và các cụm từ đó bao gồm được nhận dạng và được kết hợp với văn bản.
- Tất cả các cụm từ xuất hiện trong văn bản là những cụm từ khóa có tiềm năng của văn bản.
- Cách tiếp cận này không yêu cầu xác định trước các từ vựng và nó không bị hạn chế bởi các khái niệm trong tập từ vựng.
- Tuy nhiên, các cụm từ khoá được kết hợp trong mỗi văn bản thì có độ phù hợp nhỏ hơn, và nó không rõ ràng nhận ra các từ và các cụm có độ thích hợp nhất.
- Mở rộng kỹ thuật sắp xếp để ứng dụng cho việc trích rút từ khóa.
- Dùng một tập rút ra từ kinh nghiệm thấy phù hợp với thuật toán di truyền, hoặc dùng thống kê để đo những khám phá quan trọng, tần suất, mối liên quan các sự kiện, khoảng cách các thuật ngữ của các cặp từ, hoặc xây dựng một từ điển từ khóa bằng sự phối hợp các cụm từ của các bài văn và giữ lại các cụm danh từ, và cách nữa là khai thác các nét đặc trưng như chữ hoa, cách đánh trọng âm, và các đoạn chủ đề để tìm ra khả năng kết hợp một cách hợp lý từ văn bản, hoặc mang một phần cụm từ trong nhóm câu và nhận dạng các cụm danh từ được phối hợp từ 2 hoặc hơn nữa các tính từ và giới hạn các danh từ trong danh từ đầu.
- Turney [4] nhận dạng 2 hoặc 3 từ khóa ứng cử từ văn bản bằng việc sử dụng dấu phân cách các stopword, và sau đó coi các từ khóa đó là có ý nghĩa khi chúng có xuất hiện trong văn bản, hoặc nhận dạng các từ khóa danh từ bằng cách đối chiếu từ điển, và sau đó coi tần suất xuất hiện một danh từ như cụm từ đầu trong một văn bản.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt