« Home « Kết quả tìm kiếm

NHẬN DẠNG MÃ ĐỘC SỬ DỤNG CƠ CHẾ BĂM THEO CHỈ MỤC TRÊN KHÔNG GIAN DỮ LIỆU PHÂN HOẠCH


Tóm tắt Xem thử

- NHẬN DẠNG MÃ ĐỘC SỬ DỤNG CƠ CHẾ BĂM THEO CHỈ MỤC TRÊN KHÔNG GIAN DỮ LIỆU PHÂN HOẠCH.
- Mã độc, nhận dạng mã độc, băm theo chỉ mục, không gian dữ liệu phân hoạch Keywords:.
- Để bảo vệ máy tính khỏi các đe dọa lây nhiễm, hệ phòng chống virus máy tính cần quét kiểm tra mã độc trong hệ thống đích.
- Trong bài viết này, chúng tôi trình bày kỹ thuật nhận dạng nhanh mã độc sử dụng cơ chế băm theo chỉ mục trên không gian phân hoạch.
- Đầu tiên, trong giai đoạn luyện, tập mẫu chữ ký mã độc được phân thành các cụm có cùng đặc điểm.
- Giá trị này sau đó được dùng làm khóa tìm kiếm luật nhận dạng của đối tượng trong không gian luật đã được sắp xếp.
- Trong bối cảnh ngày càng gia tăng các cuộc tấn công thâm nhập mạng, các hệ phòng chống virus máy tính không ngừng cải tiến nhằm sớm phát hiện các loại mã độc hại, kịp thời loại trừ các tác nhân thâm nhập, tăng cường công tác bảo vệ an toàn hệ thống và an ninh mạng.
- Để cải tiến tốc độ truy vấn chữ ký mã độc trên cơ sở dữ liệu (CSDL) lớn, chúng tôi nghiên cứu kỹ thuật nhận dạng nhanh mã độc sử dụng cơ chế băm theo chỉ mục trên không gian phân hoạch.
- Đầu tiên, tập mẫu chữ ký mã độc được phân thành các cụm có cùng đặc điểm.
- Giá trị này được dùng làm khóa tìm kiếm luật nhận dạng của đối tượng trong không gian luật đã sắp xếp.
- Kết quả truy vấn sẽ cho biết tình trạng an ninh của đối tượng chẩn đoán có phải là mã độc hay không..
- Để đánh giá hiệu quả kỹ thuật, chúng tôi xây dựng tập 615,880 mẫu mã độc và động cơ chẩn đoán của hệ D2 Anti-virus* 2013 (phiên bản dành cho Windows XP).
- 2.1 Mã độc trong tấn công an ninh mạng 2.1.1 Vai trò của mã độc trong kịch bản tấn.
- Trong các cuộc tấn công mạng, đặc biệt là hình thức tấn công từ chối dịch vụ lan tràn (DDoS – Distributed Denial of Service), hacker thường cài đặt các đoạn mã độc hại (malicious code) vào các phần mềm ác ý (malware) rồi tìm cách cấy vào các máy trạm (zombie) để hình thành mạng botnet, chuẩn bị cho cuộc tấn công.
- Mỗi mã độc có đoạn mã đặc trưng nhận dạng gọi là chữ ký (signature) mã độc [5].
- Có hai hình thức thiết kế mã độc: thi hành phụ thuộc và thi hành độc lập..
- 2.1.2 Mã độc thi hành phụ thuộc.
- Tiêu biểu cho dạng mã độc này là các loại virus máy tính (gọi tắt là virus), trojan horse (gọi tắt là trojan), spyware, adware.
- Virus là loại mã độc có khả năng ký sinh mã vào các tập thực thi khác và nắm quyền thực thi khi ứng dụng chủ thi hành.
- được hacker cài đặt trong lúc thiết kế mã độc.
- 2.1.3 Mã độc thi hành độc lập.
- Để khắc phục, hacker biên dịch mã độc dưới dạng file thực thi rút gọn rồi lan truyền trên mạng thông qua các lỗ hổng bảo mật hệ thống..
- Tiêu biểu cho dạng mã độc này là các loại sâu mạng (networm), cửa hậu (backdoor), intruder, dropper, rootkit.
- hacker thường kết hợp nhiều hình thức mã độc: virus chứa sâu mạng, trojan kết xuất dropper.
- Do đó, phân loại mã độc như trên chỉ là tương đối..
- 2.2 Các hệ phòng chống virus máy tính Lịch sử phát triển mã độc bắt nguồn từ virus máy tính (sau đây gọi tắt là virus).
- Ngày nay thuật ngữ anti-virus (AV) dùng để chỉ loại phần mềm bảo vệ máy tính khỏi sự xâm nhập của các loại mã độc hại (virus, trojan, worm, backdoor, rootkit, spyware.
- bằng cách đối chiếu dữ liệu hệ thống với thông tin mô tả các loại mã độc đã biết trong một CSDL được cập nhật thường xuyên [8].
- Tiếp cận chuỗi mã giúp AV nhận dạng mã độc đã biết với độ chính xác cao..
- Tuy nhiên hoạt động của AV sẽ kém hiệu quả khi kiểm tra các mã độc chưa được cập nhật thông tin vào CSDL mẫu..
- Các mã độc giống nhau thường có các hành vi giống nhau.
- Nghiên cứu mã độc dưới góc độ thi hành, tiếp cận này dựa vào khái niệm hành vi (behavior checking) để nhận dạng mã độc bằng cách tải và thử thi hành (heuristic) mã lệnh nghi ngờ trong môi trường mô phỏng (emulated environment) nhằm giải mã các hành vi lạ [7].
- Tiếp cận máy học nhận dạng virus máy tính (Machine Learning Approach to Anti-virus System) xây dựng các mô hình học dựa vào cơ sở tri thức (CSTT) gồm tập mẫu chữ ký mã độc và luật nhận dạng.
- Tiếp cận này chia bài toán chẩn đoán mã độc thành nhiều lớp bài toán con rồi áp dụng các hình thức học phù hợp cho từng bài toán cụ thể .
- Nhận dạng hướng luật giúp AV có khả năng dự báo các mẫu mã độc tương đồng.
- Dù áp dụng tiếp cận nào, nhiệm vụ của các AV là sớm đưa ra bằng chứng xuất hiện nếu có của một loại mã độc đã biết với tên gọi cụ thể.
- Quét virus là quá trình tìm kiếm chữ ký mã độc trong đối tượng.
- Liên quan đến chủ đề bài viết có các kỹ thuật tìm kiếm tuyến tính, tìm kiếm bằng chỉ mục và tìm kiếm bằng bảng băm..
- 2.3.1 Tìm kiếm tuyến tính.
- Tìm kiếm tuyến tính (linear search) là kỹ thuật duyệt từng phần tử trong danh sách đến khi tìm thấy (so khớp) giá trị mong muốn hoặc đến cuối danh sách.
- Đơn giản trong thiết kế, tìm kiếm tuyến tính thích hợp cho các danh sách đủ nhỏ, danh sách chưa sắp thứ tự, các tổ chức lưu trữ tuần tự như danh sách liên kết, tập tin định kiểu… Tuy nhiên khi hoạt động trên danh sách đã sắp xếp hoặc danh sách lớn, phương pháp này không tối ưu và kém hiệu quả..
- 2.3.2 Tìm kiếm theo chỉ mục.
- Trong các hệ quản trị CSDL quan hệ, tìm kiếm theo chỉ mục (index search) là kỹ thuật tìm kiếm vị trí mẫu tin trên cấu trúc bảng dựa vào thông tin chỉ mục.
- Quá trình tìm kiếm mẫu tin có khóa primary key trong bảng chính được thực hiện bằng thuật toán tìm kiếm trên danh sách thứ tự (chẳng.
- Mã độc?.
- Xử lý đối tượng.
- hạn, tìm kiếm nhị phân), lấy giá trị #record rồi mở bảng chính, dịch đến vị trí mẫu tin tương ứng..
- Sử dụng thuật toán tìm kiếm trên danh sách thứ tự nên tìm kiếm theo chỉ mục nhanh hơn tìm kiếm tuyến tính.
- Tuy nhiên, số mẫu tin trong bảng chính luôn bằng với số mẫu tin trong bảng chỉ mục nên kỹ thuật tìm kiếm theo chỉ mục nói chung không giảm không gian dữ liệu.
- Mục 2.3.3 sau đây sẽ trình bày kỹ thuật tìm kiếm hướng giảm không gian dữ liệu..
- 2.3.3 Tìm kiếm bằng bảng băm.
- Tìm kiếm bằng bảng băm (hash table search) là kỹ thuật tìm kiếm theo hướng giảm không gian dữ liệu.
- Hiệu quả tìm kiếm dữ liệu trên bảng băm phụ thuộc vào chất lượng hàm băm.
- Phân loại dữ liệu chẩn đoán, giảm không gian tìm kiếm để tránh quá tải là giải pháp được các AV sử dụng phổ biến [13].
- ghi nhận dữ liệu an toàn [12].
- đánh dấu dữ liệu nguyên trạng (not modified) [14].
- 2.4.2 Tình hình nghiên cứu cải tiến tốc độ quét mã độc trên mạng theo hướng băm.
- Số lượng mã độc trên thị trường ngày càng nhiều khiến tập mẫu của AV gia tăng từ vài trăm ngàn đến hàng triệu chữ ký.
- Giải pháp cải tiến tốc độ quét mã độc theo hướng băm gần đây cũng được quan tâm nghiên cứu.
- Năm 2007, Ozgun Erdogan và Pei Cao đề xuất kỹ thuật Hash-AV sử dụng cơ chế đệm L2 trong CPU để quét nhanh chữ ký mã độc lan truyền trên mạng [7].
- Băm ngược chuỗi mẫu, ghi vết quá trình tìm kiếm, bỏ qua các chuỗi đã đối chiếu nhằm kéo dài vectơ khoảng cách trong thuật toán tìm kiếm của Aho-Corasick, kỹ thuật này giúp cải tiến 50% tốc độ thông lượng quét mạng bằng Hash-AV sử dụng CSDL mẫu của phần mềm nguồn mở Clam-AV [9]..
- 3 NHẬN DẠNG MÃ ĐỘC SỬ DỤNG CƠ CHẾ BĂM THEO CHỈ MỤC TRÊN KHÔNG GIAN PHÂN HOẠCH.
- Trong các hệ học, CSTT chứa thông tin mô tả đối tượng và các luật nhận dạng đối tượng.
- Bài viết này tập trung vào các loại mã độc dạng thực thi EXE..
- Đầu tiên, các tập mã độc được thu thập cho chuyên gia phân tích kỹ thuật, phân loại.
- Sau đó, chuyên gia sẽ cập nhật các mẫu tin mô tả mã độc vào cấu trúc bảng dạng:.
- Chữ ký: đặc trưng ‘nhân dạng’ mã độc, dùng xây dựng luật nhận dạng..
- Các phương pháp tìm kiếm tuyến tính trên tập mẫu lớn có nhiều hạn chế.
- Chúng tôi giải quyết vấn đề này bằng chiến lược tìm kiếm trên không gian tập mẫu được phân cụm..
- Bảng 1: CSDL mẫu chứa 10 mã độc.
- Hình 2: Mô tả kết quả phân cụm CSDL dựng bằng V-tree, kết quả thu được 6 nhóm mã độc.
- 3.1.3 Rút luật nhận dạng.
- Rút luật nhận dạng bằng cách duyệt đường đi từ nút gốc đến nút lá.
- Trong ví dụ trên, tập 10 mẫu tin được tách thành 6 cụm mã độc tương ứng với 6 luật nhận dạng như sau:.
- Như vậy, ngoài chức năng cung cấp tri thức mã độc của chuyên gia, luật nhận dạng còn có thể sử dụng làm chỉ dẫn truy xuất dữ liệu.
- Đầu tiên, tập luật nhận dạng được tổ chức dạng bảng 2 chiều R.
- 3.2 Nhận dạng mã độc dựa vào tri thức Giai đoạn nhận dạng - xử lý trên máy khách vận dụng các thủ tục suy diễn và lập luận trong động cơ quét (scan engine), căn cứ vào thông tin trong tập chữ ký mẫu và các tri thức mô tả trong CSDL luật để chẩn đoán đối tượng A.
- Để tương thích với khuôn dạng tri thức mô tả mã độc M ở giai đoạn luyện, bước này sử dụng lại hàm trích chọn đặc trưng f(M) của chuyên gia dạng:.
- Trong đó, δ(q) là phép trích chọn tự động tập thuộc tính mã độc ở giai đoạn trước.
- Ví dụ này sử dụng i = 3 (i = p’<.
- Khái niệm nhân dạng trong tiếp cận học chẩn đoán mã độc dựa vào lập luận: “nếu đối tượng có nhân dạng giống với nhân dạng tội phạm thì có thể đối tượng chính là tội phạm đang truy nã”..
- Các mã số này sau đó được sử dụng làm giá trị tìm kiếm theo trường khóa chính Checksum trong CSDL luật của hệ..
- Khi tra cứu mã số nhân dạng ID(A) trong CSDL luật, nếu không tìm thấy có thể kết luận A là đối tượng an toàn vì trong CSTT chưa có các mô tả mã độc nào có đặc trưng thi hành giống với A.
- Mỗi luật nhận dạng đại diện cho một cụm (nhóm) các mã độc cùng đặc trưng.
- Xác minh hồ sơ là quá trình đối chiếu thông tin nhân dạng của A với các mã độc cùng nhóm.
- hàm băm H truy vấn danh sách mã độc cùng nhóm trên tập mẫu X(p,k) có dạng:.
- C hiến lược sử dụng tập luật nhận dạng làm chỉ mục băm tìm kiếm chữ ký mã độc được minh họa ở Hình 3..
- Nếu đối chiếu đúng, có thể kết luận đối tượng A là mã độc..
- Gọi M(p,n) là tập mã độc có mã nhận dạng trùng với mã nhân dạng của A.
- Kết luận (‘Phát hiện mã độc’, M(1,j)) Tìm thấy ← true;.
- Thực hiện trên máy chuyên gia, giai đoạn học xây dựng CSTT dưới dạng tập các mô tả tri thức mã độc và luật nhận dạng khẳng định dương trên tập mẫu.
- Phiên bản D2 Anti-virus* 2013 (Hình 4) có một số cải tiến quan trọng về giao diện, tăng tốc độ quét, dự báo mã độc hướng heuristic, ước lượng mã tương đồng, phát hiện hành vi lây nhiễm trên thiết bị lưu trữ cá nhân….
- Do số luật nhận dạng luôn nhỏ hơn số mẫu dữ liệu nên CRC32 là lựa chọn kinh tế, đảm bảo các luật thành viên hoạt động tốt trên CSDL mẫu có hơn 4.2 tỷ chữ ký mã độc..
- Quá trình thử nghiệm D2 Anti-virus* 2013 (Hình 5) sử dụng CSDL 615,880 mã độc cập nhật ngày 04-08-2013.
- Thời gian kiểm tra 1MB dữ liệu là 0.04747 miligiây (Bảng 3)..
- Do mỗi hệ AV sở hữu một CSDL mẫu có số chữ ký mã độc khác nhau nên không thể so sánh tốc độ hai phần mềm khác nhau về kích thước tập mẫu.
- Trong bối cảnh gia tăng các cuộc tấn công mạng, mã độc xuất hiện ngày càng nhiều, quét nhanh chữ ký mã độc luôn là bài toán đặt ra cho các hệ AV hiện nay.
- Để cải tiến tốc độ duyệt quét của các hệ AV dành cho máy tính cá nhân, chúng tôi nghiên cứu cài đặt kỹ thuật nhận dạng mã độc sử dụng cơ chế băm theo chỉ mục trên không gian phân hoạch cho hệ phần mềm D2 Anti-virus*.
- Trong thời gian tới, chúng tôi sẽ tiếp tục nghiên cứu phương pháp sử dụng tập luật trong các hệ quản trị CSTT làm tập chỉ mục tìm kiếm khai thác dữ liệu.
- Ứng dụng Máy học và Hệ chuyên gia trong phân loại và nhận dạng virus máy tính