Detecting APT Attack Traffic Using Retrieval-Augmented Large Language Models
基于检索增强大语言模型的APT攻击流量检测
Introduction & Abstract
高级持续性威胁(Advanced Persistent Threats, APT)与传统的DDoS攻击或webshell不同。它们采用更复杂和隐蔽的渗透策略,对目标系统进行长期攻击,对组织和国家安全构成严重威胁。在不依赖已知威胁情报(IOC)线索的情况下识别复杂的APT活动已被证明极具挑战性。
为了克服上述限制,我们提出了一种新颖的加密APT流量检测模型APTSniffer,该模型结合了大语言模型(LLM)和检索增强技术(RAG)。
我们的模型首先从预测的流量样本中提取特征,然后使用检索增强技术在历史流量样本中识别具有相似行为模式和攻击习惯的少样本流量信息。最后,将检索到的样本信息和具有训练集先验知识的辅助微调权重矩阵输入大型生成语言模型进行自适应推理决策。
Technical Architecture
Exact Sequence Matching
通过载荷包长度序列的精确匹配,有效捕获APT组织攻击过程中的相似模式。
Fuzzy Similarity Matching
即使APT组织改变数据包长度,新的包长度序列仍与原始序列保持高度相似性。
Traffic Correlation Graph
通过图连接关联多跳流量样本属性信息,而不仅仅是相同属性的样本。
How APTSniffer Works
从PCAP文件中,基于流(由IP、端口和协议的五元组定义)提取不同流的载荷包长度序列和JA4指纹等特征。
通过精确和模糊匹配载荷长度序列,以及图关联技术,将流量特征数据转换为可理解的知识信息。
将转换后的样本信息输入大语言模型,利用其少样本推理和泛化能力获得最终预测结果。
Interactive Example
Dataset Information (Anyrun2024)
数据集文件中的PCAP名称包含了详细信息,结构如下:
格式:APT组织名_日期_样本哈希_五元组信息_Suricata规则ID_ATT&CK战术_ATT&CK技术
上述示例展示了包含APT10组织、时间戳、样本哈希、网络五元组、Suricata检测规则、MITRE ATT&CK战术和技术等完整信息的PCAP文件名。
Citation
如果您使用本论文中的数据集,请务必包含适当的引用。
@inproceedings{aptsniffer2025,
title={APTSniffer: Detecting APT Attack Traffic Using Retrieval-Augmented Large Language Models},
author={Your Name and Co-authors},
booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
year={2025},
organization={IEEE}
}