« Home « Kết quả tìm kiếm

Tóm tắt Luận văn Thạc sĩ Kỹ thuật: Nghiên cứu phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log


Tóm tắt Xem thử

- NGHIÊN CỨU PHÁT HIỆN TẤN CÔNG WEB CƠ BẢN DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG.
- Đối với các công ty lớn, nguy cơ bị tấn công vào hệ thống đồng nghĩa với việc họ sẽ bị thiệt hại hàng tỷ USD, uy tín trước khách hàng bị giảm sút.
- Qua số liệu trên cho thấy tấn công web cơ bản là các dạng tấn công thường gặp lên các website, web portal và các ứng dụng trên nền web.
- Các dạng tấn công này có thể bao gồm: tấn công chèn mã SQL (SQLi hay SQL Injection), tấn công chèn mã XSS (Cross-Site Scripting), tấn công duyệt đường dẫn (Path traversal) và tấn công chèn dòng lệnh hệ điều hành (CMDi hay Command Injection).
- Trong số này, tấn công chèn mã SQL là một trong các dạng tấn công phổ biến và nguy hiểm nhất.
- Tùy vào mức độ tinh vi, tấn công chèn mã SQL có thể cho phép kẻ tấn công (1) vượt qua các khâu xác thực người dùng, (2) chèn, sửa đổi, hoặc xóa dữ liệu, (3) đánh cắp các thông tin trong cơ sở dữ liệu và (4) chiếm quyền điều khiển hệ thống máy chủ cơ sở dữ liệu [1].
- Tấn công XSS có thể cho phép tin tặc đánh cắp dữ liệu người dùng lưu trong cookie của trình duyệt, từ đó kiểm soát tài khoản của người dùng trên máy chủ.
- Theo một hướng khác, tấn công duyệt đường dẫn cho phép tin tặc tải hoặc truy nhập vào các file chứa dữ liệu nhạy cảm trên các máy chủ và thông qua đó có thể xâm nhập sâu vào hệ thống.
- Tấn công chèn dòng lệnh hệ điều hành có thể cho phép tin tặc thực hiện các lệnh nguy hiểm cho phép xóa file, dữ liệu trên hệ thống nạn nhân..
- Mặc dù các dạng tấn công thường gặp lên các website và các ứng dụng trên nền web đã được biết đến từ lâu và đã có nhiều biện pháp phòng chống được nghiên cứu, triển khai, như sử dụng các bộ lọc, tường lửa, các cơ chế kiểm soát truy nhập… Tuy nhiên, các dạng tấn công web cơ bản vẫn khá phổ biến và gây nhiều thiệt hại cho các trang web, các cổng thông tin điện tử, các trang thương mại điện tử của các cơ quan tổ chức.
- Nguyên nhân của điều này là do vẫn có nhiều website và các ứng dụng trên nền web không có, hoặc thiếu cơ chế lọc dữ liệu đầu vào thực sự hiệu quả, và/hoặc sử dụng các mã chương trình trộn lẫn với dữ liệu, tạo điều kiện cho tin tặc chèn mã độc tấn công hệ thống [1].
- Việc xây dựng các bộ lọc dựa trên các mẫu cố định thực sự gặp khó khăn, khi các mẫu tấn công liên tục thay đổi và ngày càng tinh vi hơn.
- Việc xây dựng các bộ lọc phát hiện các dạng tấn công web cơ bản dựa trên học máy là một hướng giải quyết hiệu quả thay thế cho các bộ lọc mẫu truyền thống.
- Theo hướng nghiên cứu này, đề tài luận văn thạc sĩ của học viên có tên “Nghiên cứu phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log” tập trung nghiên cứu vấn đề phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log..
- Đã có nhiều giải pháp phòng chống các dạng tấn công web cơ bản được nghiên cứu và ứng dụng [1][3].
- Sử dụng các bộ lọc để kiểm tra và lọc dữ liệu đầu vào.
- Trên phương diện nghiên cứu học thuật, có thể chia các đề xuất nghiên cứu phát hiện tấn công, xâm nhập nói chung và tấn công web cơ bản nói riêng thành 2 nhóm dựa trên kỹ thuật phát hiện: (1) nhóm phát hiện dựa trên chữ ký, mẫu, hoặc luật và (2) nhóm phát hiện dựa trên bất thường..
- Phát hiện dựa trên chữ ký (signature), mẫu (pattern), hoặc luật (rule) là phương pháp phát hiện tấn công dựa trên việc tìm hay so khớp tập chữ ký của các tấn công đã biết với các dữ liệu giám sát thu thập được.
- Một tấn công được phát hiện khi có ít nhất một so khớp chữ ký thành công.
- Kỹ thuật phát hiện tấn công, xâm nhập dựa trên chữ ký có ưu điểm là có khả năng phát hiện nhanh và chính xác các dạng tấn công đã biết.
- Tuy nhiên, kỹ thuật này có nhược điểm là không có khả năng phát hiện các dạng tấn công mới, hay tấn công khai thác lỗ hổng zero-day do chữ ký của chúng chưa tồn tại trong cơ sơ dữ liệu.
- Tiếp theo, thực hiện huấn luyện dữ liệu để xây dựng mô hình phát hiện, hay hồ sơ của đối tượng..
- Phương pháp phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log thực hiện trong luận văn thuộc nhóm kỹ thuật phát hiện dựa trên bất thường.
- Luận văn nghiên cứu một số thuật toán học máy có giám sát và ứng dụng cho việc phát hiện tấn công web cơ bản sử dụng web log..
- Trên cơ sở đó tiến hành thực nghiệm để đánh giá hiệu quả trong việc phát hiện tấn công web cơ bản của một số thuật toán học máy..
- Một số dạng tấn công web cơ bản.
- Một số thuật toán học máy để phát hiện tấn công - Web log.
- Phương pháp lý thuyết: Khảo sát, phân tích các tài liệu khoa học liên quan đến các dạng tấn công và một số thuật toán học máy..
- Phương pháp thực nghiệm: Sử dụng các công cụ, phần mềm để thử nghiệm và đánh giá hiệu quả các thuật toán học máy trong phát hiện dựa trên web log đối với bộ dữ liệu được lựa chọn..
- Chương 1: Tổng quan về các dạng tấn công vào Website, ứng dụng Web và các giải pháp phòng chống.
- Chương này trình bày về kiến trúc ứng dụng web, các yêu cầu về bảo mật, các hình thức tấn công vào ứng dụng web cũng như cách phòng chống bị tấn công của các hình thức tấn công phổ biến trong các năm gần đây dựa theo OWASP.
- Chương 2: Phát hiện tấn công WEB dựa trên học máy sử dụng Web.
- Trong chương 2, luận văn sẽ tiếp tục đi tìm hiểu về WEBLOG, khái quát và các dạng, đồng thời đi sâu vào việc giới thiệu học máy và các thuật toán học máy, đưa ra mô hình phát hiện tấn công website và chi tiết các khâu xử lý dữ liệu..
- CHƯƠNG 1: TỔNG QUAN VỀ CÁC DẠNG TẤN CÔNG VÀO WEBSITE, ỨNG DỤNG WEB VÀ.
- Các Nguy Cơ và Các Dạng Tấn Công Lên Ứng Dụng Web.
- OWASP Top 10 năm 2017 được phát hành công khai, dựa trên cuộc thăm dò, kiểm tra hơn 2,3 triệu lỗ hổng tác động đến 50000 ứng dụng, bao gồm 2 bản cập nhật lỗ hổng quy mô lớn và cập nhật các kịch bản tấn công mới.
- A10- Underprotected APIs (Các API không được bảo vệ) 1.2.2 Một số dạng tấn công web cơ bản.
- Tấn công chèn mã SQLi.
- Tấn công chèn mã SQL (SQL Injection - SQLi) là một kỹ thuật cho phép kẻ tấn công chèn mã SQL vào dữ liệu gửi đến máy chủ và cuối cùng được thực hiện trên máy chủ cơ sở dữ liệu.
- Tùy vào mức độ tinh vi, tấn công chèn mã SQL có thể cho phép kẻ tấn công (1) vượt qua các khâu xác thực người dùng, (2) chèn, sửa đổi, hoặc xóa dữ liệu, (3) đánh cắp các thông tin trong cơ sở dữ liệu và (4) chiếm quyền điều khiển hệ thống máy chủ cơ sở dữ liệu.
- Tấn công chèn mã SQL là dạng tấn công thường gặp ở các ứng dụng web, các trang web có kết nối đến cơ sở dữ liệu..
- Có 2 nguyên nhân của lỗ hổng trong ứng dụng cho phép thực hiện tấn công chèn mã SQL:.
- Tấn công Cross-Site Scriting (XSS).
- Tấn công Cross-Site Scriting (XSS – Mã script liên site, liên miền) là một trong các dạng tấn công phổ biến nhất vào các ứng dụng web.
- Mã tấn công XSS được nhúng trong trang web chạy trong lòng trình duyệt với quyền truy nhập của người dùng, có thể truy nhập các thông tin nhạy cảm của người dùng lưu trong trình duyệt.
- Trên thực tế, có thể thực hiện tấn công bằng chèn mã HTML mà không cần mã JavaScript và cũng không cần liên site, hoặc liên miền.
- Kẻ tấn công khai thác các lỗ hổng bảo mật để chèn mã XSS vào trang web, trong đó dữ liệu web (như tên và địa chỉ email) và mã (cú pháp và các phần tử như <script>) của XSS được trộn lẫn vào mã gốc của trang web..
- Tấn công XSS thường xuất hiện khi trang web cho phép người dùng nhập dữ liệu và sau đó hiển thị dữ liệu lên trang.
- Kẻ tấn công có thể khéo léo chèn mã script vào trang và mã script của kẻ tấn công được thực hiện khi người dùng khác thăm lại trang web đó..
- Có thể chia tấn công XSS thành 3 loại chính: Stored XSS (XSS lưu trữ), Reflected XSS (XSS phản chiếu) và DOM-based/Local XSS (XSS dựa trên DOM hoặc cục bộ).
- Directory Traversal là một dạng tấn công cho phép tin tặc truy cập đến những chỉ mục bị giới hạn, thực thi lệnh bên ngoài chỉ mục gốc của máy chủ web.
- Hình thức tấn công này không cần sử dụng một công cụ nào mà chỉ đơn thuần là thao tác với các biến.
- Tấn công CMDi.
- Nếu dữ liệu không được kiểm tra, một hacker có thể sử dụng các ký tự đặc biệt để thay đổi lệnh đang được thực thi từ đó kẻ tấn công có thể khai thác, truy xuất thông tin, tấn công sang các hệ thống máy chủ khác trong cùng vùng mạng..
- Kiểm tra dữ liệu đầu vào.
- Giảm thiểu các giao diện có thể bị tấn công 1.2.3.2.3.
- Chương này cũng đã giới thiệu các lỗ hổng nằm trong TOP 10 OWASP 2017 và một số lỗ hổng tấn công web điển hình hiện nay như là SQLi, XSS, Duyệt đường dẫn ( Directory traversal.
- Trong chương 2, với nội dung là PHÁT HIỆN TẤN CÔNG WEB DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG, luận văn sẽ tiếp tục đi tìm hiểu về WEBLOG, khái quát và các dạng, đồng thời đi sâu vào việc giới thiệu học máy và các thuật toán học máy, đưa ra mô hình phát hiện tấn công website và chi tiết các khâu xử lý dữ liệu..
- CHƯƠNG 2: PHÁT HIỆN TẤN CÔNG WEB DỰA TRÊN HỌC MÁY SỬ DỤNG WEB LOG.
- P ( x ) là xác suất xảy ra của riêng tập dữ liệu dự đoán x..
- P ( x n ) Ứng dụng:.
- Phát hiện tấn công web dựa trên học máy sử dụng web log.
- Mô hình phát hiện.
- Mô hình phát hiện tấn công web cơ bản dựa trên học máy sử dụng web log trong luận văn này được triển khai theo 2 giai đoạn: (1) giai đoạn huấn luyện như biểu diễn trên Hình 2.5 và (2) giai đoạn phát hiện như biểu diễn trên Hình 2.6.
- Các URI bình thường và URI tấn công dùng cho giai đoạn huấn luyện được lấy từ tập dữ liệu mẫu đã được gán nhãn..
- Hình 2.5: Mô hình phát hiện tấn công web cơ bản: Giai đoạn huấn luyện [2].
- Hình 2.6: Mô hình phát hiện tấn công web cơ bản: Giai đoạn phát hiện [2][20].
- Các giai đoạn huấn luyện và phát hiện 2.3.2.1.
- Giai đoạn này thực hiện xây dựng mô hình phát hiện từ dữ liệu huấn luyện và gồm các bước sau:.
- Thu thập tập dữ liệu huấn luyện - Tiền xử lý.
- Kiểm thử mô hình phát hiện 2.3.2.2.
- Giai đoạn phát hiện.
- Giai đoạn này thực hiện phân tích các dòng web log nhằm phát hiện các dấu hiệu tấn công SQLi, XSS, duyệt đường dẫn và chèn dòng lệnh hệ điều hành và gồm các bước sau:.
- Phát hiện.
- Ngoài ra chương 2 cũng giới thiệu khái quát về học máy và đưa ra một số thuật toán học máy được sử dụng để phát hiện tấn công web như Naive Bayes, Cây quyết định (Decision Tree), Rừng ngẫu nhiên.
- Tuy nhiên mục đích của chương 2 chủ yếu là đi sâu vào việc trình bày mô hình phát hiện tấn công được sử dụng, các pha xử lý trong mô hình như là tiền xử lý, huấn luyện và phát hiện..
- Giới thiệu tập dữ liệu.
- 3.1.1 Tập dữ liệu mẫu.
- Tập dữ liệu dùng cho thử nghiệm đánh giá mô hình phát hiện là HttpParamsDataset [19]..
- 10.852 truy vấn tấn công chèn mã SQL được gán nhãn sqli - 532 truy vấn tấn công XSS được gán nhãn xss.
- 89 truy vấn tấn công chèn mã lệnh hệ điều hành được gán nhãn cmdi - 290 truy vấn tấn công duyệt đường dẫn được gán nhãn path-traversal..
- Tập dữ liệu HttpParamsDataset được chia thành 2 phần sử dụng cho huấn luyện và kiểm thử:.
- 3.1.2 Dữ liệu web log thực.
- Tiền xử lý dữ liệu.
- Huấn luyện và kiểm thử mô hình phát hiện.
- Tập dữ liệu huấn luyện sau tiền xử lý được sử dụng để huấn luyện sử dụng thuật toán cây quyết định để sinh mô hình phân loại (cụ thể là thuật toán cây quyết định CART được hỗ trợ trong thư viện sk-learn của Python).
- Trong khâu kiểm thử, tập dữ liệu kiểm thử sau tiền xử lý được sử dụng để đánh giá độ chính xác phân loại..
- Mô hình phát hiện tấn công web cơ bản đạt độ chính xác phát hiện trung bình khá cao, đạt 98.51%.
- Hầu hết các dạng tấn công và trạng thái bình thường đều có độ chính xác phát hiện cao, riêng độ chính xác phát hiện tấn công CMDi chỉ đạt 66.67%.
- do lượng dữ liệu huấn luyện cho dạng tấn công này khá ít.
- Trên thực tế, tấn công CMDi ít gặp trên dịch vụ web hơn các dạng SQLi, XSS và duyệt đường dẫn..
- Kết quả phát hiện thử trên web log thực cho thấy mô hình phát hiện khá chính xác từng loại tấn công.
- Mô hình có khả năng phát hiện 4 dạng tấn công web cơ bản bao gồm SQLi và XSS, tấn công duyệt đường dẫn và CMDi..
- Trong chương 3 của luận văn đã mô tả chi tiết dữ liệu được sử dụng cho mô hình phát hiện tấn công web sử dụng học máy, mô tả chi tiết các phương pháp huấn luyện và phát hiện, thống kê chi tiết các kết quả đạt được bằng nhiều kịch bản thử nghiệm khác nhau từ đó rút ra được những nhận xét ưu điểm và những hạn chế của phương pháp học máy sử dụng..
- Trình bày khái quát về ứng dụng web, các yêu cầu bảo mật đối với ứng dụng web, web server, các loại tấn công web cũng như đặc điểm cách khai thác của loại tấn công web phổ biến và các biện pháp bảo mật, cách phòng chống..
- Trình bày các phương pháp phát hiện tấn công web sử dụng học máy, các thuật toán học máy được áp dụng cho bài toán phát hiện tấn công web.
- Đưa ra mô hình phát hiện tấn công web và nguyên lý hoạt động của mô hình phát hiện tấn công..
- Trình bày quá trình xử lý dữ liệu, đưa dữ liệu vào huấn luyện và phát hiện kiểm tra..
- Thử nghiệm mô hình phát hiện tấn công web cơ bản dựa trên học máy với các kịch bản cụ thể.
- Cập nhật thêm dữ liệu để phát hiện được các loại tấn công mới hiện nay cũng như cập nhật được cách thức tấn công mới trên các lỗ hổng cũ.

Xem thử không khả dụng, vui lòng xem tại trang nguồn
hoặc xem Tóm tắt