« Home « Kết quả tìm kiếm

Phân tích lưu lượng trên internet.

Tóm tắt Xem thử dlib.hust.edu.vn Tải xuống

- LƯƠNG QUỐC TRUNG PHÂN TÍCH LƯU LƯỢNG TRÊN INTERNET Chuyên ngành: Kỹ Thuật Máy Tính Và Truyền Thông LUẬN VĂN THẠC SĨ KỸ THUẬT Kỹ thuật Máy Tính Và Truyền Thông NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS.
- Bất thường và Phát hiện bất thường.
- Phân loại dựa trên các kỹ thuật phát hiện bất thường.
- Kỹ thuật phát hiện bất thường dựa trên phân nhóm.
- Kỹ thuật phát hiện bất thường bằng thống kê.
- Các thông tin kỹ thuật lý thuyết phát hiện bất thường.
- Kỹ thuật phát hiện bất thường dựa trên phân tích phổ.
- Phát hiện bất thường theo mô hình cân bằng.
- Cơ sở dữ liệu và bất thường.
- Thuật toán phát hiện.
- Kỹ thuật bắt gói tin.
- Thu thập dữ liệu với các thông tin lưu lượng thực nghiệm.
- Áp dụng công thức tính toán của mô hình cân bằng vào dữ liệu chuẩn của MAWI.
- Các thành phần chính liên kết với một kỹ thuật phát hiện bất thường.
- 512 byte dữ liệu của một gói tin Ethernet ở dạng Hex.
- Thông tin trên gói tin sau khi phân tích.
- So sánh kết quả phát hiện bất thường trong một số tập tin.
- 57 Trang 5 DANH MỤC CÁC TỪ VIẾT TẮT TỪ VIẾT ĐẦY ĐỦ Ý NGHĨA DBSCAN Density-based spatial clustering of applications with noise Một thuật toán phân cụm dữ liệu của Martin Ester, Hans-Peter Kriegel, Jörg Sander và Xiaowei Xu đề xuất vào năm 1996.
- EM Expectation Maximization Phương pháp lặp để tìm kiếm khả năng tối đa hoặc tối đa một hậu nghiệm ước lượng các tham số trong mô hình thống kê, nơi mà các mô hình phụ thuộc vào các biến tiềm ẩn không quan sát được.
- Hà Nội, tháng 4 năm 2015 Tác giả Luận văn Thạc sỹ Lương Quốc Trung Trang 7 TÓM TẮT Công nghệ thông tin và Internet phát triển dẫn đến việc trao đổi thông tin trên Internet ngày một nhiều hơn và có nhiều thông tin quan trọng được truyền đi trên mạng, điều này đặt ra nhiều vấn đề quan trọng về an ninh mạng và an toàn trong truyền tin để ngăn chặn rò rỉ hoặc ngăn chặn truy cập trái phép vào các dữ liệu quan trọng, gây thiệt hại về kinh tế.
- Từ việc phân tích lưu lượng mạng Internet, ta sẽ phát hiện ra những bất thường trên mạng.
- Có rất nhiều phương pháp phát hiện bất thường dựa trên các phân tích lưu lượng mạng.
- Trong phạm vi của đề tài này sẽ tập trung vào phân tích lưu lượng mạng Internet bằng phương pháp phát hiện bất thường dựa trên mô hình cân bằng.
- Ưu điểm lớn nhất của phương pháp này so với các phương pháp khác là không đòi hỏi quá trình tạo dữ liệu giúp tiết kiệm thời gian phát hiện với độ chính xác cao hơn so với các phương pháp khác.
- Ngoài ra, trong đề tài này, chúng tôi sẽ phát triển một chương trình đơn giản áp dụng cho mô hình cân bằng để phát hiện bất thường.
- Chương trình sẽ phân tích các gói dữ liệu bằng mô hình cân bằng.
- Từ đó rút ra những kết luận và đánh giá những ưu điểm, nhược điểm và hiệu quả ứng dụng của mô hình cân bằng so với các phương pháp khác.
- Thông tin bị đánh cắp không chỉ ảnh hưởng lợi ích cá nhân mà có thể còn ảnh hưởng đến cả lợi ích quốc gia và cho thấy những hạn chế của các phương pháp bảo mật hiện nay, điều này nói lên sự cần thiết cho các hệ thống phát hiện xâm nhập cho phép phát hiện các phương thức tấn công mới dựa trên phân tích lưu lượng Internet để phát hiện bất thường.
- MỤC TIÊU NGHIÊN CỨU Mục tiêu chính của đề tài là để tìm hiểu về các phương pháp phân tích lưu lượng Internet để phát hiện bất thường, từ đó thử nghiệm cách tiếp cận phát triển chương trình phân tích lưu lượng mạng bằng cách phân tích các gói tin đã bị bắt và đánh giá của các chuyên gia trước đó.
- Trong phạm vi của đề tài này, chúng tôi tìm hiểu các phương pháp phân tích lưu lượng Internet trong đó tập trung phát hiện bất thường dựa trên mô hình cân bằng.
- Ưu điểm lớn nhất của phương pháp này so với các phương pháp khác đó là không đòi hỏi quá trình học dữ liệu giúp tiết kiệm thời gian đưa ra kết quả chính xác.
- Cơ sở lý thuyết Trong chương này, chúng tôi sẽ trình bày một cái nhìn tổng quan của hầu hết các phương pháp để phát hiện một số loại bất thường bao gồm định nghĩa, phân loại, giả định, phương pháp tính toán (computational complexity), những ưu và nhược điểm của từng loại.
- Phương pháp phát hiện bất thường bằng phương pháp thống kê thông qua mô hình cân bằng.
- Bất thường và Phát hiện bất thường 1.1.
- Giới thiệu Phát hiện bất thường đề cập đến các vấn đề của việc tìm kiếm các mẫu trong dữ liệu mà không phù hợp với hành vi dự kiến.
- Những mô hình không phù hợp thường được gọi là dị thường, giá trị ngoại lai, quan sát nghịch, trường hợp ngoại lệ, quang sai, bất ngờ, đặc thù, hoặc tạp chất trong các lĩnh vực ứng dụng khác nhau.
- Trong số này, bất thường và sự chênh lệch là hai thuật ngữ được sử dụng phổ biến nhất là trong bối cảnh phát hiện bất thường.
- Phát hiện bất thường sử dụng rộng rãi trong một loạt các ứng dụng như phát hiện gian lận thẻ tín dụng, bảo hiểm, chăm sóc sức khỏe, phát hiện xâm nhập trong an ninh mạng, phát hiện lỗi trong hệ thống an toàn quan trọng, và giám sát các hoạt động quân sự của đối phương.
- Tầm quan trọng của phát hiện bất thường trong thực tế là do bất thường trong dữ liệu có biến dạng đáng kể, thường xuyên thay đổi, giúp xử lý thông tin trong một loạt các lĩnh vực ứng dụng.
- Phát hiện giá trị ngoại lai hoặc bất thường trong các dữ liệu đã được nghiên cứu trong cộng đồng thống kê vào đầu thế kỷ 19 [Edgeworth 1887.
- Theo thời gian, một loạt các kỹ thuật phát hiện bất thường đã được phát triển trong một số nhóm nghiên cứu.
- Rất nhiều những kỹ thuật này đã được phát triển một cách đặc biệt cho các lĩnh vực ứng dụng nhất định.
- Chương này sẽ cố gắng để cung cấp một cái nhìn tổng quan và toàn diện cấu trúc của các nghiên cứu về phát hiện bất thường.
- Bất thường là gì Bất thường là các mẫu trong dữ liệu mà không phù hợp với một khái niệm được xác định rõ ràng là hành vi bình thường.
- Bất thường có thể được gây ra trong các dữ liệu cho một loạt các lý do, như các hành động cố ý phá hoại, ví dụ: gian lận thẻ tín dụng, xâm nhập mạng, hoạt động khủng bố hoặc phá hủy hệ thống, tuy nhiên tất cả những lý do có đặc điểm chung là chúng đáng để ta quan tâm và phân tích.
- Các Trang 11 thông tin liên quan của dị thường là một tính năng quan trọng của phát hiện bất thường.
- 1.1.2 Thách thức Ở một mức độ chung, một sự bất thường được định nghĩa như là một mô hình mà không phù hợp với hành vi dự kiến thông thường.
- Một cách tiếp cận phát hiện bất thường đơn giản, là để xác định một khu vực đại diện cho hành vi bình thường và xác định bất kỳ quan sát trong các dữ liệu mà không thuộc khu vực bình thường này là một sự bất thường.
- Xác định một khu vực bình thường bao gồm tất cả các hành vi có thể bình thường là rất khó khăn.
- Ngoài ra, ranh giới giữa hành vi bình thường và bất thường thường là không chính xác.
- Vì vậy, một quan sát bất thường nằm gần ranh giới có thể là bình thường, và ngược lại.
- Khi bất thường là kết quả của các hành động độc hại, những thông tin nguy hại thường thích ứng để làm cho các quan sát bất thường xuất hiện bình thường, do đó khiến cho công việc xác định hành vi bình thường khó khăn hơn.
- Trong nhiều lĩnh vực hành vi bình thường luôn tiến triển và một khái niệm hiện tại của hành vi bình thường có thể không có đủ đại diện trong tương lai.
- Các khái niệm chính xác của một sự bất thường là khác nhau cho các lĩnh vực ứng dụng khác nhau.
- Ví dụ, trong lĩnh vực y tế một sự sai lệch nhỏ từ bình thường (EEG, biến động về nhiệt độ cơ thể) có thể là một sự bất thường, trong khi độ lệch tương tự trong lĩnh vực thị trường chứng khoán (ví dụ, biến động về giá trị của một cổ phiếu) có thể được coi là bình thường.
- Vì vậy việc áp dụng cùng một kỹ thuật cho các lĩnh vực khác nhau là không hề đơn giản.
- Trang 12  Dữ liệu sẵn có phục vụ cho quá trình học/ kiểm chứng của các mô hình là một vấn đề lớn trong các kỹ thuật phát hiện bất thường.
- Thường thì dữ liệu có chứa nhiễu và nhiễu này thường có xu hướng tương tự như các dị thường thực tế và do đó rất khó để phân biệt và loại bỏ.
- Do những thách thức này, các vấn đề phát hiện bất thường, ở dạng chung nhất của nó, không phải dễ giải quyết.
- Trong thực tế, hầu hết các kỹ thuật phát hiện bất thường hiện nay đều giải quyết một trường hợp cụ thể của vấn đề.
- Và như vậy, việc xây dựng được tạo ra bởi các yếu tố khác nhau như bản chất của dữ liệu, dữ liệu dán nhãn sẵn, loại bất thường được phát hiện.
- Thông thường, những yếu tố này được xác định bởi các lĩnh vực ứng dụng, trong đó bất thường cần phải được phát hiện.
- Hình 1 cho thấy các thành phần quan trọng liên quan đến bất kỳ kỹ thuật phát hiện bất thường nào.
- 1.1.3 Nhãn dữ liệu Các nhãn kết hợp với một trường dữ liệu biểu thị cho dù nó là bình thường hay bất thường.
- Cần lưu ý rằng việc có được dữ liệu dán nhãn chính xác cũng như các đại diện của tất cả các loại hành vi thường rất tốn kém.
- Ghi nhãn thường được thực hiện bằng tay nên việc này mất rất nhiều công sức do đó việc tập hợp những hệ thống dữ liệu dán nhãn sẵn là rất cần thiết.
- Thông thường, nhận được một tập nhãn của trường dữ liệu bất thường bao gồm tất cả các loại có thể của hành vi bất thường khó khăn hơn so với việc dán nhãn cho hành vi bình thường.
- Hơn nữa, những hành vi bất thường thường biến đổi trong tự nhiên, ví dụ, các loại mới của các dị thường có thể phát sinh, mà không có nhãn dữ liệu.
- Trong một số trường hợp, chẳng hạn như an toàn hàng không, trường hợp bất thường sẽ tạo ra thảm họa và do đó rất hiếm có nhãn cho các sự kiện bất thường này.
- Trang 14 Căn cứ vào mức độ các nhãn được có sẵn, kỹ thuật phát hiện bất thường có thể hoạt động trong một trong ba phương thức sau đây: Giám sát phát hiện bất thường (Supervised Anomaly Detection).
- Kỹ thuật được đào tạo trong chế độ giám sát giả định dữ liệu sẵn có của một tập dữ liệu huấn luyện đã dán nhãn cho các trường hợp bình thường cũng như các trường hợp bất thường.
- Một cách tiếp cận điển hình trong trường hợp này là xây dựng một mô hình dự đoán cho các trường hợp bất thường so với bình thường.
- Các dữ liệu được so sánh với các mô hình để xác định lớp nó thuộc về.
- Có hai vấn đề chính phát sinh trong giám sát phát hiện bất thường.
- Thứ nhất, các trường hợp bất thường là rất ít so với các trường hợp bình thường trong dữ liệu học được.
- Các vấn đề phát sinh do sự phân bố lớp mất cân bằng đã được giải quyết trong các tài liệu khai thác dữ liệu và dữ liệu học máy [Joshi et al.
- Thứ hai, lấy nhãn chính xác và đại diện, đặc biệt là cho các lớp bất thường thường là một thử thách lớn.
- Một số kỹ thuật đã sử dụng phương pháp thêm các dị thường nhân tạo vào một dữ liệu bình thường thiết lập để có được một tập dữ liệu huấn luyện gắn nhãn [Theiler and Cai.
- Khác với hai vấn đề này, các vấn đề phát hiện bất thường giám sát là tương tự để xây dựng mô hình dự báo.
- Do đó, chúng tôi sẽ không nói đến các kỹ thuật này.
- Bán giám sát phát hiện bất thường (Semi supervised Anomaly Detection).
- Các kỹ thuật hoạt động trong một chế độ bán giám sát, giả định rằng dữ liệu huấn luyện đã được dán nhãn chỉ cho các lớp dữ liệu bình thường.
- Vì họ không cần nhãn cho các lớp dữ liệu bất thường nên chúng được áp dụng rộng rãi hơn so với các kỹ thuật giám sát khác.
- Các cách tiếp cận điển hình được sử dụng trong kỹ thuật này là xây dựng một mô hình cho các lớp tương ứng với hành vi bình thường, và sử dụng các mô hình để xác định bất thường trong các dữ liệu thử nghiệm.
- Một số hạn chế trong các kỹ thuật phát hiện bất thường trên là tính sẵn sàng của các trường hợp bất thường chỉ dùng cho đào tạo [Dasgupta và Nino 2000.
- Kỹ thuật như vậy thường không được sử dụng, chủ yếu là bởi vì nó khó tạo Trang 15 ra được một tập dữ liệu huấn luyện bao gồm tất cả các hành vi bất thường có thể xảy ra trong các dữ liệu.
- Phát hiện bất thường không giám sát (Unsupervised Anomaly Detection).
- Các kỹ thuật hoạt động trong chế độ không giám sát không yêu cầu dữ liệu huấn luyện do đó nó được áp dụng rộng rãi nhất.
- Các kỹ thuật trong phương pháp này làm cho các giả định rằng các trường hợp bình thường là thường xuyên hơn so với các trường hợp bất thường trong các dữ liệu thử nghiệm.
- Nếu giả định này là không đúng so với thực tế thì kỹ thuật này có xác xuất bị sai khá lớn.
- Nhiều kỹ thuật bán giám sát có thể được điều chỉnh để hoạt động trong một chế độ không giám sát bằng cách sử dụng một mẫu của các dữ liệu không có nhãn thiết lập như là dữ liệu huấn luyện.
- Như vậy giả định rằng các dữ liệu thử nghiệm có chứa rất ít bất thường và các mô hình trong quá trình đào tạo là đủ linh hoạt để thể hiện một vài bất thường.
- Phân loại dựa trên các kỹ thuật phát hiện bất thường Phân loại [Tan et al.
- 2000] được sử dụng để tìm hiểu một mô hình từ một tập hợp các dữ liệu đã được dán nhãn sau đó phân loại mỗi trường hợp thử nghiệm vào các lớp khác nhau bằng cách sử dụng mô hình học.
- Kỹ thuật phát hiện bất thường phân loại dựa trên hoạt động bao gồm hai giai đoạn.
- Giai đoạn đào tạo phân lớp sử dụng các dữ liệu đào tạo nhãn có sẵn.
- Giai đoạn thử nghiệm phân loại xem trường hợp thử nghiệm là bình thường hay bất thường bằng cách sử dụng trình phân loại.
- Phân loại dựa trên các kỹ thuật phát hiện bất thường hoạt động theo các giả định chung sau đây: Giả thuyết.
- Một phân loại có thể phân biệt giữa các lớp bình thường và bất thường có thể được học trong không gian đặc trưng nhất định.
- Dựa trên nhãn có sẵn cho các giai đoạn huấn luyện, kỹ thuật phát hiện bất thường phân loại dựa trên giả

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt

Phân tích lưu lượng trên internet.

CHỦ ĐỀ LIÊN QUAN