« Home « Kết quả tìm kiếm

Hệ thống phát hiện xâm nhập mạng phân tán với SNORT, Chukwa, Hadoop và Syslog-NG


Tóm tắt Xem thử

- Họ và tên tác giả: Lê Thanh Tuấn ĐỀ TÀI: HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG PHÂN TÁN VỚI SNORT, CHUKWA, HADOOP VÀ SYSLOG-NG Chuyên ngành: Truyền thông và Mạng máy tính LUẬN VĂN THẠC SĨ KỸ THUẬT Truyền thông và Mạng máy tính Người hướng dẫn: TS.
- Trần Hoàng Hải Hà Nội, 2018 2 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ và tên tác giả luận văn: Lê Thanh Tuấn Đề tài luận văn: Hệ thống phát hiện xâm nhập mạng phân tán với Snort, Chukwa, Hadoop và Syslog-Ng Chuyên ngành: Truyền thông và Mạng máy tính Mã số SV: CA160462 Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày với các nội dung sau.
- 9 1.2 Vấn đề an toàn mạng và giải pháp phân tích log file từ IDS phân tán.
- 18 2.1 Hệ thống phát hiện xâm nhập mạng.
- 25 2.2 Hệ thống tập hợp dữ liệu Chukwa.
- 26 2.3 Hệ Thống tập hợp dữ liệu Syslog-NG.
- 30 2.5 Hệ thống phân tán với Apache Hadoop.
- 31 2.5.2 Hệ thống tập tin phân tán của Hadoop – HDFS.
- 38 3.1.1 Tổng quan về hệ thống.
- 38 3.1.2 Mô hình, kiến trúc của hệ thống.
- 38 3.1.3 Thiết kế cơ sở dữ liệu.
- 37 Hình 2.12: Quá trình đọc dữ liệu trong HDFS.
- 26 Hình 2.13: Quá trình ghi dữ liệu trong HDFS.
- 27 Hình 3.1: Hệ thống Snort phân tán.
- 39 Hình 3.2: Kiến trúc tổng quan của hệ thống.
- 41 6 DANH MỤC BẢNG Bảng 1: Cấu trúc cơ sở dữ liệu.
- Cùng với sự phát triển nhanh chóng của mạng Internet, việc đảm bảo an ninh cho các hệ thống thông tin càng trở nên cấp thiết hơn bao giờ hết.
- Phát hiện sớm những nguy cơ tiềm ẩn sẽ giúp nhà quản trị đưa ra biện pháp xử lý kịp thời và hiệu quả nhằm đảm bảo an toàn cho hệ thống mạng.
- IDS là một hệ thống có thể giải quyết được vấn đề trên, nó được cài đặt để giám sát toàn bộ lưu thông của hệ thống mạng nên lượng log file mà IDS thu thập được có thể vô cùng lớn.
- Việc lưu trữ và xử lý lượng log file lớn trên hệ thống máy đơn không hiệu quả.
- Vì vậy, đòi hỏi một hệ thống lưu trữ phân tán và xử lý song song mới đáp ứng được yêu cầu.
- Xuất phát từ thưc tế trên, đề tài để xuất ý tưởng: “Hệ thống phát hiện xâm mạng phân tán với Snort, Chukwa, Hadoop và Syslog-ng”.
- Hệ thống có 4 thành phần cơ bản là: Snort, Chukwa – Syslog-ng, Hadoop và MapReduce.
- Sau đó, dùng hệ thống tập hợp dữ liệu Chukwa hoặc Syslog-ng để thu thập log file của Snort và lưu trữ vào HDFS (hệ thống tập tin phân tán của Hadoop).
- Hệ thống đề xuất xây dựng một hadoop cluster (cụm máy tính) với 1 master và 8 slave.
- Từ kết quả thực nghiệm, cho thấy hiệu suất tăng 10.1 lần so với hệ thống máy tính đơn.
- 9 Chương I: ĐẶT VẤN ĐỀ VÀ ĐỊNH HƯỚNG GIẢI PHÁP 1.1 Mở đầu Đề tài “Hệ thống phát hiện xâm mạng phân tán với Snort, Chukwa, Hadoop và Syslog-ng” sẽ tập trung vào tìm hiểu lý thuyết của các hệ thống lưu trữ phân tán, cơ sở dữ liệu được sử dụng trên các hệ thống phân tán đó.
- quá trình xây dựng mô hình hệ thống thông qua những lý thuyết đã tìm hiểu và kiểm thử đánh giá hiệu năng của hệ thống đã xây dựng.
- Đề tài gồm 2 phân hệ: thu thập log file của các IDS phân tán và phân tích log file của các IDS trên nền tảng Hadoop.
- Chương 2: Cơ sở lý thuyết Tìm hiểu các lý thuyết có liên quan đến đề tài như là công cụ thu thập log file từ các cảm biến của hệ thống phát hiện xâm nhập mạng, kiến trúc phân tán của Hadoop, cách thức hoạt động cũng như kiến trúc của cơ sở dữ liệu phân tán HBase, các vấn đề liên quan đến an toàn và toàn vẹn dữ liệu.
- Chương 3: Nội dung và kết quả thực nghiệm Xây dựng hệ thống phát hiện xâm nhập mạng phân tán kết hợp Snort, Hadoop, Chukwa.
- Và thực nhiệm hệ thống với số lượng node khác nhau, tiến hành đo lường và ghi nhận số liệu.
- Từ đó thống kê và đánh giá hiệu suất hệ thống.
- Chương 4: Kết luận và hướng phát triển Từ những số liệu thu nhận được đưa ra kết luận về những ưu điểm và hạn chế của hệ thống và định hướng phát trển trong tương lai để hệ thống hoàn thiện hơn.
- 1.2 Vấn đề an toàn mạng và giải pháp phân tích log file từ IDS phân tán Xã hội ngày càng phát triển, Internet trở thành một phần không thể thiếu đối với từng 10 cá nhân, doanh nghiệp, các tổ chức, trường học cũng như chính phủ.
- Một giải pháp được đưa ra là một hệ thống phát hiện sớm những nguy cơ tiềm ẩn, sự đa dạng và phức tạp trong các loại hình tấn công trên mạng giúp người quản trị có thể luôn luôn theo dõi, giám sát và thu thập được những thông tin đáng giá phục vụ cho việc phân tích đưa ra giải pháp kịp thời và hiệu quả nhằm đảm bảo an toàn cho hệ thống mạng.
- Các hệ thống phát hiện xâm nhập (Intrustion Detection System – IDS) có thể giải quyết được vấn đề trên, nó được cài đặt để giám sát toàn bộ lưu thông từ bên ngoài và bên trong hệ thống mạng nên lượng log file mà IDS thu thập được có thể vô cùng lớn.
- Việc lưu trữ và xử lý một lượng log file vô cùng lớn ứng với toàn mạng trên một máy đơn làm hiệu suất của máy tính giảm một cách đáng kể, chưa kể đến mất dữ liệu hoặc chính hacker tấn công.
- Từ những hạn chế trên, yêu cầu cần thiết là phải xử lý lượng log file lớn một cách phân tán trên nhiều máy, vừa không ảnh hưởng đến hiệu suất CPU, vừa hạn chế nguy cơ mất dữ liệu.
- Việc phân chia công việc phân tán sẽ nhanh và hiệu quả hơn.
- Map/reduce là một nền tảng tính toán phân tán thích hợp cho việc xử lý phân tán được nêu trên.
- Xuất phát từ những yêu cầu trên, đề tài đề xuất giải pháp “Hệ thống phát hiện xâm nhập mạng phân tán với Snort, Chukwa, Hadoop và Syslog-ng” để xử lý lượng log file lớn một cách phân tán.
- 1.3 Lý do chọn đề tài Trong bối cảnh khi các hệ thống mạng ngày càng phát triển về quy mô, các hình thức tấn công mạng ngày càng tinh vi và khó đối phó, việc lưu trữ, xử lý và phân tích các logs truy nhập mạng là công việc không thể thiếu trong các hệ thống giám sát, phát hiện tấn 11 công, phát hiện xâm nhập mạng, phát hiện bất thường cũng như trong các hệ thống phân tích mẫu hoặc phân tích hành vi người sử dụng mạng.
- Từ dữ liệu logs thô thu thập được, qua quá trình xử lý, phân tích, chúng ta có thể trích xuất được các thông tin quan trọng về dấu hiệu, khả năng xuất hiện của các mã độc và các dạng tấn công, xâm nhập, cũng như các thông tin có giá trị về hành vi truy cập mạng của người dùng.
- Kết quả phân tích, phát hiện dấu hiện xuất hiện mã độc, tấn công, xâm nhập là một trong những đầu vào quan trọng trong việc đánh giá, lựa chọn các giải pháp phù hợp cho đảm bảo an toàn thông tin, hệ thống và các tài nguyên mạng.
- Bên cạnh những nhu cầu thực tế đã nêu ở trên, những lý do cá nhân dẫn đến lựa chọn “Hệ thống phát hiện xâm nhập mạng phân tán với Snort, Chukwa, Hadoop và Syslog-ng” như sau.
- 1.4 Phạm vi đề tài Đề tài sẽ có 2 phân hệ: 1.4.1 Thu thập log file của các IDS phân tán.
- Như chúng ta đã biết IDS là một công cụ hữu dụng cho việc thu thập, giám sát và phát hiện được những nguy cơ tấn công, đe dọa đến sự an toàn của hệ thống mạng.
- IDS có rất nhiều loại, được chọn lựa phù hợp với yêu cầu của từng hệ thống mạng.
- Thông thường, Snort được cài đặt phân tán ở mỗi nhánh mạng để có thể thu thập được toàn bộ lưu thông mạng.
- Vì vậy, cần phải thu thập những log file này về để phân tích và xử lý.
- Chukwa – một tiểu dự án của Hadoop, là hệ thống thu thập dữ liệu mã nguồn mở để theo dõi hệ thống phân tán lớn.
- 1.4.2 Phân tích log file của các IDS Như đã nói ở trên, log file sẽ thu thập được từ các IDS phân tán.
- Đồng nghĩa phải đối mặt với việc xử lý khối lượng dữ liệu khổng lồ và phức tạp.
- Một trong những công nghệ tạo nên cuộc cách mạng về dữ liệu lớn là MapReduce, một mô hình tính toàn được phát triển để xử lý các tập hợp dữ liệu phân tán quy mô lớn.
- Với mô hình MapReduce, từ một công việc thì nó sẽ chia nhỏ thành các công việc con giống nhau và dữ liệu đầu vào cũng được chia nhỏ.
- Một cách đơn giản, hàm Map tiếp nhận mảnh dữ liệu input và thực hiện xử lý nào đó để chuẩn bị dữ liệu làm đầu vào cho hàm Reduce.
- Trong đề tài này hàm Map sẽ nhận dữ liệu đầu vào là các log file đã được Chukwa thu thập từ Snort.
- 1.5 Các giải pháp hiện có Lĩnh vực xử lý và phân tích logs truy nhập đã được quan tâm nghiên cứu và ứng dụng trên thế giới.
- Splunk thực hiện các công việc tìm kiếm, giám sát và phân tích các dữ liệu lớn được sinh ra từ các ứng dụng, các hệ thống và các thiết bị hạ tầng mạng.
- Nó có thể thao tác tốt với nhiều loại dịnh dạng dữ liệu khác nhau (Syslog, csv, apache-log, access_combined.
- Hạn chế lớn nhất của Splunk là chi phí cài đặt lớn, do khoản đầu tư ban đầu cho hệ thống thiết bị chuyên dụng và độ phức tạp cao.
- Nhược điểm lớn nhất của Sumo Logic là việc phải tải khối lượng log lớn (lên đến hàng chục GB/ngày) từ hệ thống sinh log lên hệ thống dịch vụ Sumo Logic để xử lý.
- Là một dịch vụ giúp người dùng dễ dàng để triển khai một hệ thống giám sát an ninh mạng.
- Cụ thể là mọi dữ liệu về Log sẽ được chuyển đến Loggly Server quan các client như snare hoặc một công cụ do Loggly cung cấp.
- Dữ liệu được chuyển về server của Loggly sẽ được xử lý, phân tích và đưa ra các cảnh báo tới các nhà quản trị.
- Nhược điểm của Loggly là Do hoạt động trên mô hình Service nên hiệu suất của Loggly không thực sự thích hợp với những hệ thống ở mức độ doanh nghiệp lớn.
- Việc truyền tải một lượng dữ liệu lớn cũng làm giảm hiệu suất trong việc phân tích và cảnh báo.
- Logstash không hoạt động độc lập mà nó sử dụng công cụ ElasticSearch để lập chỉ số và tìm kiếm dữ liệu, và công cụ Kibana để biểu diễn dữ liệu dưới dạng biểu đồ.
- Tuy nhiên, một số công cụ mạnh có giá thành rất cao dẫn đến chi phí lắp đặt và vận hành quá lớn (Splunk), chưa thực sự phù hợp với phần đông các hệ thống mạng.
- Các loại logs bao gồm logs được sinh ra từ hệ thống phát hiện xâm nhập mạng và các logs đặc trưng khi người sử dụng truy nhập mạng từ các hệ thống mạng lớn với lưu lượng truy cập hàng ngày rất cao nhằm trích xuất những thông tin có giá trị hỗ trợ cho đảm bảo an toàn thông tin và các tài nguyên mạng cũng như nắm bắt được hành vi truy cập của người dùng trong mạng.
- Thời gian đáp ứng của hệ thống khi vận hành phải thực sự nhanh chóng để đáp ứng được những nhu cầu cấp bách trong bối cảnh thực tế.
- Thu thập được logs từ các nguồn sinh logs phân tán đặc đặt rải rác trong hệ thống mạng lớn.
- Lưu trữ logs file trong một hệ cơ sở dữ liệu phân tán.
- Tìm hiểu, nắm rõ kiến trúc, hoạt động của một hệ thống lưu trữ phân tán.
- Nắm được cơ chế hoạt động của mô hình MapReduce trong xử lý dữ liệu lớn.
- Nắm được kiến trúc, cơ chế hoạt động của một hệ cơ sở dữ liệu phân tán.
- 15 • Thành thạo trong triển khai hệ thống thực tế, xử lý được các lỗi phát sinh trong khi triển khai hệ thống.
- 1.7 Định hướng các giải pháp triển khai đề tài Hệ thống sẽ được xây dựng và triển khai dựa trên các Framework và các dự án mã nguồn mở.
- Về cơ bản, đồ án tập trung thiết kế và xây dựng hệ thống tận dụng hiệu năng của nhiều máy tính nhằm nâng cao tốc độ xử lý, cũng như truy vấn logs file có kích thước lớn.
- Hệ thống có 3 vấn đề lớn cần giải quyết (I) thu thập dữ liệu từ nhiều nguồn sinh logs khác nhau, (II) lưu trữ và xử lý khối lượng logs lớn và (III) truy vấn, trình diễn dữ liệu logs thu thập được.
- Thu thập dữ liệu từ nhiều nguồn sinh logs khác nhau: Những nguồn sinh logs trong hệ thống mạng mà đồ án tiếp cận là những cảm biến của hệ thống phát hiện xâm nhập mạng – IDS, nên cần một hệ thống tập hợp từ nhiều nguồn này về một nơi để lưu trữ, xử lý và phân tích.
- Lưu trữ và xử lý khối lượng logs lớn: Do đã đề cập, hệ thống mạng có quy mô lớn, lưu lượng truy cập rất cao.
- Đứng trước yêu cầu đó, hệ thống lượng chọn việc lưu trữ và xử lý phân tán trên nhiều máy tính nhằm tận dụng khả năng lưu trữ cũng như xử lý của nhiều máy tính nhằm nâng cao khả năng của toàn hệ thống.
- Giải pháp được lựa chọn là xây dựng một cụm máy chủ lưu trữ dữ liệu phân tán sử dụng Apache Hadoop.
- Truy vấn, trình diễn dữ liệu logs thu thập được: Khối lượng logs sau xử lý cũng vẫn rất lớn, việc truy vấn từ đó để làm những phân tích hay đánh giá hệ thống mạng cũng sẽ gặp đôi chút khó khăn.
- Nhằm giải quyết vấn đề này, tận dụng trên nền tảng phân tán mà hệ thống đã được xây dựng trước đó, đề xuất được đưa ra là tích hợp vào một hệ cơ sở dữ liệu phân tán nhằm tính thời gian thực cho hệ thống, đảm bảo đáp ứng các như cầu phân tích, đánh giá của người quản trị hệ thống.
- Kèm theo đó, để có thể nhanh nhất nhìn ra vấn đề của hệ thống, việc trình diễn dữ liệu sẽ giúp người quản trị có được cái nhìn trực quan và cụ thể hơn rất 16 nhiều những con số.
- Giải pháp được lựa chọn cơ sở dữ liệu phân tán HBase và SQL Engine Impala.
- Như vậy người viết đồ án đã đưa ra cái nhìn tổng quan cũng như định hướng cách thức giải quyết các vấn đề chính trong thiết kế và xây dựng hệ thống.
- Để Snort tương thích với hệ thống đa xử lý, nhiều phương pháp ứng dụng và cải tiến Snort được đề xuất.
- Flow-pinning làm giảm lượng dữ liệu tải lại đến bộ nhớ cache L2.
- Một đề xuất khác là thay đổi Snort để nó hoạt động như một hệ thống đa luồng.
- Việc thực hiện cho thấy hiệu năng của hệ thống cải thiện nhất trên 8 bộ vi xử lý cho song song bảo thủ tăng 4,1 lần và tăng 3 lần trên 6 bộ xử lý song song lạc quan.
- Jiang và các đồng sự nhận thấy rằng sự đối chiếu dấu vết tấn công trong tiền xử lý làm giảm hiệu suất trong hệ thống song song.
- hệ thống phát hiện xâm nhập mạng nguồn mở và Suricata có thể sử dụng tập luật của Snort.
- Giáo sư Shun-Fa Yang và các cộng sự [4] ở Free Software Laboratory, Đài Loan đã đề nghị ICAS (IDS Log Cloud Analysis System), một hệ thống phân tích các log file được tạo ra bởi Snort trong các hệ thống điện toán đám mây sử dụng Hadoop.
- Trong ICAS, IDS dò xét các gói dữ liệu mạng và tạo ra các cảnh báo.
- Đó là một hệ thống tập tin phân tán của Hadoop.
- HDFS sẽ tạo bản sao của dữ liệu và lưu

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt