« Home « Kết quả tìm kiếm

Xây dựng bộ phân lớp các văn bản sử dụng thuật toán Maximum Entropy trên miền dữ liệu tội phạm


Tóm tắt Xem thử

- XÂY DỰNG BỘ PHÂN LỚP CÁC VĂN BẢN SỬ DỤNG THUẬT TOÁN MAXIMUM ENTROPY.
- TRÊN MIỀN DỮ LIỆU TỘI PHẠM.
- Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60480104.
- Tôi xin cam đoan luận văn “Xây dựng bộ phân lớp các văn bản sử dụng thuật toán Maximum Entropy trên miền dữ liệu tội phạm” là công trình nghiên cứu của riêng tôi..
- Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất cứ một công trình nào khác..
- Ngoại trừ các tài liệu tham khảo này, luận văn là công việc của riêng tôi..
- Hà Nội, tháng 6 năm 2015 Tác giả luận văn.
- Nguyễn Trí Thành, người đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp..
- Tôi xin gửi lời cảm ơn tới ThS Nguyễn Minh Tiến, anh đã nhiệt tình giúp đỡ, hỗ trợ và chỉ bảo tôi trong quá trình thực nghiệm của luận văn..
- Cuối cùng, tôi muốn gửi lời cảm ơn tới bố mẹ hai bên gia đình, vợ và đặc biệt là con gái - những người thân yêu luôn bên cạnh quan tâm, động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này..
- Bài toán phân lớp văn bản.
- Xây dựng bộ phân lớp văn bản.
- Quá trình tiền xử lý dữ liệu.
- Đánh giá bài toán phân lớp.
- Phƣơng pháp sử dụng hệ luật.
- Phƣơng pháp sử dụng học máy.
- Mô hình cây quyết định.
- Mô hình Entropy cực đại (Maximum Entropy.
- Mô hình Entropy cực đại ………..…..26.
- Entropy cực đại cho phân lớp văn bản .
- Ưu điểm của mô hình Maximum Entropy .
- Một số đặc trƣng của dữ liệu văn bản tiếng Việt.
- Xây dựng các lớp trong miền dữ liệu tội phạm.
- Các lớp tội danh được xây dựng trong thực tế bài toán.Error! Bookmark not defined..
- Phát biểu bài toán phân lớp các văn bản miền dữ liệu tội phạm trên văn bản tiếng Việt.
- Dữ liệu chƣơng trình.
- Kết quả thực nghiệm.
- Bảng 2: Kết quả pha phát hiện.
- Bảng 3: Kết quả pha phân lớp.
- Bảng 4: Kết quả pha phân lớp trực tiếp.
- Hình 1: Biểu đồ tăng trưởng dữ liệu Internet tới năm 2020.
- Hình 2: Dữ liệu được sinh ra mỗi phút trên Internet.
- Hình 3: Mô hình bài toán phân lớp văn bản.
- Hình 4: Sơ đồ hoạt động bộ phân lớp văn bản.
- Hình 6: Quá trình phân lớp và phát hiện văn bản.
- Hình 7: Quá trình phân lớp trực tiếp văn bản.
- Gần đây, với sự suất hiện ngày càng nhiều của các thiết bị thông minh và xu hướng điều khiển, cập nhật các thiết bị thông qua Internet, cụm từ “Internet of Things” đã được sử dụng ngày càng phổ biến, cho thấy xu hướng của tương lai thế giới – mọi thứ đều được kết nối vào Internet.
- Do vậy, có thể nói rằng gần như mọi tri thức của nhân loại đều có thể tìm thấy được bởi nguồn dữ liệu khổng lồ sinh ra từ Internet, gồm các dạng dữ liệu về văn bản, hình ảnh, video.....
- Dữ liệu văn bản, được lưu trên các websites với vô số các chủ đề, thể loại và dữ liệu ở các website này cũng tăng lên một cách chóng mặt do sự bùng nổ của thông tin từ Internet.
- Mọi thông tin từ lớn đến nhỏ, từ chính trị, kinh tế, xã hội đến giải trí, giáo dục… đều được cập nhật hàng ngày, hằng giờ trên các website này.
- Việc tìm kiếm được thực hiện bằng một thao tác đơn giản với các từ khóa, tuy nhiên thông tin nhận lại được từ Internet là một khối lượng đồ sộ.
- Do vậy thông tin tuy rất lớn nhưng việc khai thác các thông tin này một cách có hiệu quả là một việc làm không hề đơn giản.
- Khai phá dữ liệu văn bản và phát hiện ra tri thức từ khối dữ liệu khổng lồ này là bài toán nhận được nhiều quan tâm trong thời gian gần đây..
- Khai phá dữ liệu văn bản là sự phân tích và trích lọc các thông tin từ một tập dữ liệu văn bản lớn một cách tự động hoặc bán tự động để tìm thấy được các tri thức có lợi trong quá trình tìm kiếm thông tin.
- Phân lớp văn bản là một bài toán cơ bản và quan trọng của khai phá dữ liệu văn bản, đây là công việc gán văn bản vào một hay một số nhóm chủ đề đã được biết trước.
- Được mô tả bằng quá trình tập dữ liệu văn bản đầu vào, sau khi qua bộ phân lớp, sẽ được gán nhãn tương ứng với nội dung của nó..
- Luận văn tập trung nghiên cứu về bài toán phân lớp văn bản, với miền dữ liệu quan tâm là về miền dữ liệu tội phạm.
- toán, các phương pháp tiếp cận để giải quyết bài toán và kết quả thực nghiệm trong quá trình nghiên cứu.
- Lý do tác giả chọn miền dữ liệu về tội phạm, do nhu cầu về phân lớp, tổng hợp các tài liệu liên quan đến miền dữ liệu này là việc làm cần thiết, có thể sử dụng các kết quả này trong việc phân tích, báo cáo xu hướng về các loại tội phạm.
- Qua đó có thể tra cứu thông tin hiệu quả, rút ngắn thời gian xử lý các vụ án, đảm bảo an ninh, trật tự xã hội.
- Cấu trúc luận văn được chia thành các chương như sau:.
- Chương 1: Giới thiệu về bài toán phân lớp văn bản trên miền dữ liệu về tội phạm trong văn bản tiếng Việt từ các bài báo trên Internet.
- Chương này trình bày cơ bản về khai phá dữ liệu văn bản nói chung và phân lớp văn bản nói riêng, trong bối cảnh bùng nổ của công nghệ thông tin và mạng Internet.
- Về khối lượng thông tin mà người sử dụng tiếp cận so với những thông tin có ích mà người dùng thực sự cần thiết.
- Tiếp theo giới thiệu về ý nghĩa của bài toán phân lớp thông tin tội phạm trên văn bản tiếng Việt từ các nguồn trên Internet..
- Chương 2: Trình bày các phương pháp tiếp cận để giải quyết bài toán.
- Chương này trình bày các phương pháp để giải quyết bài phân lớp văn bản.
- Bao gồm các phương pháp sử dụng luật và sử dụng học máy.
- Trong phương pháp sử dụng học máy, tác giả cũng trình bày các thuật toán được áp dụng như Người láng giềng gần nhất (K- Nearest Neighbor), mô hình cây quyết định, thuật toán máy hỗ trợ vector (SVM – Support Vector Machine), mô hình Entropy cực đại (Maximum Entropy).
- Luận văn cũng đưa ra đánh giá đối với từng phương pháp và đưa ra lý do khi quyết định sử dụng phương pháp Maximum Entropy..
- Chương 3: Trình bày về các đặc trưng của dữ liệu văn bản tiếng Việt, các lớp tội danh được xây dựng trong quá trình phân lớp.
- Cuối cùng là phát biểu cụ thể bài toán phân lớp văn bản trên miền dữ liệu tội phạm.
- Chương 3 cũng trình bày cụ thể về hai mô hình của bài toán mà luận văn nghiên cứu, mô hình thứ nhất là phát hiện bài báo có liên quan đến miền dữ liệu đang xét, sau đó mới phân lớp.
- Mô hình thứ hai là phân lớp trực tiếp cho các bài báo dữ liệu đầu vào..
- Chương 4: Áp dụng thực tế, trình bày kết quả và đánh giá.
- Chương này mô tả quá trình thực nghiệm và đánh giá kết quả của phương pháp đề xuất dựa trên hai mô hình của bài toán được trình bày ở chương 3..
- Tổng kết: Phần tổng kết sẽ là phần đánh giá kết quả của luận văn, các kết quả của thực nghiệm, những hạn chế và hướng phát triển trong tương lai..
- Trong chương này tác giả sẽ trình bày giới thiệu về bài toán phân lớp văn bản, quá trình xây dựng bộ phân lớp văn bản, quá trình tiền xử lý dữ liệu và cách đánh giá với bài toán phân lớp mà tác giả đang thực hiện..
- Bài toán phân lớp văn bản..
- Công nghệ thông tin đã tác động mạnh mẽ đến sự phát triển của tất cả các ngành nghề trong đời sống xã hội và đặc biệt là sự ra đời của Internet.
- Theo Oracle – công ty hàng đầu về hệ quản trị cơ sở dữ liệu, dữ liệu trên Internet từ năm 2008 đến năm 2020 sẽ tăng theo cấp số mũ, và đạt đến con số 45ZB (Zettabyte - 1ZB = 2 70 B) vào năm 2020 [10].
- Dữ liệu được sinh ra ở khắp mọi nơi trên Internet, từ mạng xã hội, từ các website, các trang chia sẻ nội dung, email… và với nhiều dạng dữ liệu khác nhau như text, âm thanh, hình ảnh… Độ tăng trưởng của dữ liệu cũng tăng lên cấp số mũ do công nghệ lưu trữ phát triển cùng với sự bùng nổ của Internet và số lượng người dùng khổng lồ trên khắp thế giới.
- Theo báo cáo Visual Networking Index của Cisco [11], tổng lưu lượng truyền tải dữ liệu của mạng Internet toàn cầu trong năm 2010 là 20.2 exabyte mỗi tháng, tương đương với 242 exabyte mỗi năm.
- Lưu lượng truyền tải dữ liệu trên Internet toàn cầu đã tăng gấp 8 lần chỉ trong 5 năm (từ 2006 đến 2010), và được dự báo sẽ tăng thêm 4 lần nữa – có thể đạt mức xấp xỉ 1 zettabyte (1 nghìn exabyte) tại thời điểm năm 2015.
- Chúng ta hiện đang ngập tràn trong dữ liệu nhưng việc tìm kiếm chính xác thông tin cần thiết lại là điều khó khăn..
- Theo trang https://www.domo.com/ [12] hiện nay với 2.4 tỉ người dùng Internet trên thế giới, lượng dữ liệu được tính toán trong một phút trên Internet là những con số khổng lồ.
- Ví dụ trong một phút, có 72 giờ video mới được chia sẻ trên YouTube, 2460000 nội dung mới được cập nhật trên mạng xã hội FaceBook hay hơn 4 triệu câu truy vấn từ trang tìm kiếm Google… Mỗi ngày, con người tạo ra khoảng byte dữ liệu.
- Khoảng 90% dữ liệu trên thế giới ngày nay được tạo ra chỉ trong 2 năm vừa qua.
- Khi đó mọi vật đều được cung cấp định danh và khả năng tự động truyền tải dữ liệu thông qua mạng Internet mà không cần sự tương tác giữa con người với con người hoặc con người với máy tính.
- sự vật – trong Internet of Things, có thể là một con người với màn hình cấy ghép tim, một động vật trong trang trại với bộ tiếp sóng chip sinh học, một chiếc xe ô tô tích hợp các cảm biến để cảnh báo lái xe khi lốp quá non – hoặc bất kỳ đồ vật nào do tự nhiên sinh ra hoặc do con người sản xuất ra mà có thể được gán với một địa chỉ IP và được cung cấp khả năng truyền tải dữ liệu qua mạng.
- Như vậy ta có thể nhìn thấy được trong tương lai, lượng dữ liệu sinh ra mỗi giây, mỗi phút trên Internet là vô cùng lớn và đa dạng..
- Từ các con số như trên, ta thấy rằng dữ liệu Internet đang có xu hướng bùng nổ một cách mạnh mẽ, tuy nhiên để người dùng có được các tri thức hay các thông tin cần thiết với nguồn dữ liệu Internet khổng lồ thì không phải điều dễ dàng.
- Do vậy, khai phá dữ liệu, mà ở đây là khai phá dữ liệu văn bản với đối tượng là nội dung trang web, cụ thể là nội dung các bài báo trên website với một chủ đề cụ thể là hết sức quan trọng..
- Phân lớp văn bản là một trong số các bài toán nằm trong công việc khai phá dữ liệu văn bản, có ý nghĩa quan trọng trong việc tổ chức cũng như tìm kiếm thông tin trên nguồn dữ liệu lớn..
- [1] Nguyễn Hưng (2013), Tìm hiểu về mô hình không gian Vector, http://butchiso.com/.
- [3] Nguyễn Minh Tiến (2014), Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến, Luận văn thạc sĩ Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, tr.12-14..
- [6] Trần Cao Đệ và Phạm Nguyên Khang (2012), Phân loại văn bản với máy học vector hỗ trợ và cây quyết định, Tạp chí Khoa học, trường Đại học Cần Thơ, tr.
- [9] Quốc hội (2009), Bộ luật hình sự, sửa đổi bổ sung 2009/QH12, Hệ thống văn bản quy phạm pháp luật, http://www.moj.gov.vn/