ZAPT Dataset 交互式浏览器

探索和分析2044个真实APT攻击流量样本

高级筛选

0
总样本数
0
筛选结果
0
APT 组织
-
日期范围
APT 组织 日期 样本哈希 源地址 目标地址 Suricata ID ATT&CK 战术 ATT&CK 技术 操作

ZAPT Dataset

大规模APT攻击流量数据集

包含2044个真实APT攻击PCAP文件的大规模数据集,涵盖2019-2024年多个APT组织的攻击流量,为网络安全研究提供高质量数据支持。

2,044
PCAP 文件
6年
时间跨度
多组织
APT 团体
100%
真实流量

数据集概览

Dataset Overview

🎯

真实攻击流量

所有PCAP文件均来自真实的APT攻击样本,通过Any.run沙箱环境捕获,确保数据的真实性和有效性。

🔍

严格质量控制

使用Suricata IDS进行检测验证,结合Tshark提取攻击IP流量,确保每个样本的准确性。

📊

丰富的元数据

每个PCAP文件名包含APT组织、时间戳、样本哈希、网络五元组、Suricata规则ID、ATT&CK战术和技术等详细信息。

🌐

多样化场景

涵盖多个APT组织的攻击活动,包含不同的攻击手法、目标和技战术,适用于多种研究场景。

⏱️

长时间跨度

数据集涵盖2019年至2024年的攻击样本,可用于研究APT攻击手法的演变趋势。

🔐

加密流量分析

包含大量加密流量样本,适用于加密流量分析、指纹识别等前沿研究方向。

数据集统计

Dataset Statistics

2,044
PCAP 文件总数
涵盖不同APT组织攻击
2019-2024
数据采集时间
6年跨度,持续更新
Any.run
数据来源
专业沙箱平台
Verified
质量验证
Suricata + Tshark

数据采集方法:所有APT流量数据均通过Any.run沙箱手动筛选带有APT标签的样本,下载对应的PCAP文件。为确保标签准确性,使用Suricata检测数据集并过滤告警中的攻击IP流量,然后使用Tshark提取攻击IP生成的流量。

数据集详细信息

Detailed Information

数据集特点

  • 包含来自多个APT组织的真实攻击流量样本,覆盖不同的攻击类型和手法
  • 每个PCAP文件均经过严格的质量验证,确保数据的准确性和可用性
  • 文件命名遵循统一规范,包含丰富的元数据信息,便于研究人员快速定位和分类
  • 涵盖2019-2024年的攻击样本,可用于研究APT攻击技术的演变趋势
  • 包含大量加密流量,适用于加密流量分析、TLS/SSL指纹识别等研究
  • 每个样本都标注了MITRE ATT&CK框架的战术(Tactic)和技术(Technique)
  • 提供完整的网络五元组信息(源IP、源端口、目标IP、目标端口、协议)

质量保证

  • 来源可靠:所有样本均来自Any.run专业沙箱平台,确保攻击行为的真实性
  • 双重验证:使用Suricata IDS进行初步检测,再通过Tshark精确提取攻击流量
  • 标签准确:手动筛选APT标签样本,避免误报和噪声数据
  • 完整性检查:确保每个PCAP文件的完整性,包含完整的数据包捕获

覆盖的APT组织

  • 数据集包含多个知名APT组织的攻击样本,如APT10、APT28、APT29等
  • 涵盖不同地缘政治背景的APT组织,攻击目标和手法各异
  • 包含针对不同行业的攻击样本(政府、金融、能源、制造业等)
  • 样本跨越多个攻击阶段:侦察、武器化、交付、利用、安装、命令控制、数据窃取

样本示例

Sample Examples

PCAP文件命名规则

数据集中的每个PCAP文件名都包含了丰富的信息,帮助研究人员快速了解样本的关键特征。

文件名格式:

APT组织名_日期_样本哈希_流编号_源IP_源端口_目标IP_目标端口_Suricata规则ID_ATT&CK技术_ATT&CK战术.pcap

APT_APT10-20230130-684888079aaf7ed25e725b55a3695062-5_192.168.100.23_58521_37.48.65.148_80_sid-2826183_ttp-T1041_ta-TA0011.pcap
APT组织: APT10
日期: 20230130 (2023年1月30日)
样本哈希: 684888079aaf7ed25e725b55a3695062
流编号: 5
源地址: 192.168.100.23:58521
目标地址: 37.48.65.148:80
Suricata规则: sid-2826183
ATT&CK技术: T1041 (Exfiltration Over C2 Channel)
ATT&CK战术: TA0011 (Command and Control)

通过文件名,研究人员可以快速了解该流量样本的关键信息,包括攻击组织、时间、网络连接、检测规则以及对应的攻击战术和技术,极大地提高了数据分析效率。

应用场景

Use Cases

🤖

机器学习研究

训练和评估APT流量检测模型、异常检测算法、入侵检测系统等机器学习应用。

🔐

加密流量分析

研究加密流量的特征提取、TLS/SSL指纹识别、加密协议分析等技术。

📈

威胁情报研究

分析APT组织的攻击模式、TTP(战术、技术和程序)、攻击链演变等。

🎓

教学与培训

用于网络安全课程教学、CTF竞赛训练、安全分析师培训等教育场景。

🛡️

防御系统开发

开发和测试入侵检测系统、防火墙规则、安全事件响应流程等防御技术。

🔬

学术研究

支持网络安全领域的学术研究,发表高水平论文,推动技术创新。

ZAPT 数据集特色

已知数据最丰富、标注最精细、时间跨度最大的APT流量数据集

数据集规模

Dataset Scale

0
PCAP 文件数量
0
数据总量
GB
0
覆盖网络侧TTP
种 / 共53种
0
TTP 覆盖率
%

网络侧TTP覆盖进度

0%

数据集构建方法

Construction Methods

🌐

现网捕获

从真实网络环境中捕获APT攻击流量,基于Any.run沙箱平台和VirusTotal,确保数据的真实性和有效性。

⚔️

模拟攻击

使用Metasploit、Nmap等专业工具模拟真实APT攻击场景,构建多步攻击链,覆盖完整的攻击生命周期。

🧪

样本养殖

通过恶意软件流量数据集获取APT样本流量,经过Suricata IDS验证和Tshark提取,确保标签准确性。

🤖

AI 生成

利用人工智能技术生成大规模流量数据,扩充数据集规模,达到万级数据量,支持深度学习模型训练。

数据来源分布

Data Sources Distribution

🔬
Any.run
0
真实APT攻击样本
🦠
VirusTotal
0
恶意软件流量样本
📦
Malware Dataset
0
APT/Qbot/CS流量
模拟攻击
0
Metasploit/Nmap

六大特色

Six Key Features

🎯

精细化

子TTP级别的精细标注,支持TA/TTP/APT/MD5等多维度标签体系

🏷️

多标签

丰富的标签维度:战术(TA)、技术(TTP)、APT组织、样本哈希值

📖

可解释

恶意行为描述清晰,便于理解和分析,支持安全研究和教学应用

🌐

高覆盖

覆盖ATT&CK框架战术和技术,涵盖多个APT组织的攻击手法

💎

高质量

纯净、逼真的流量数据,经过严格质量验证和人工审核

📈

规模化

万级数据规模,支持AI深度学习模型训练和大规模实验

多步攻击场景

Multi-step Attack Scenarios

0
APT组织
0
攻击场景
0
平均步长
0
多步流量条数

💡 场景特点

模拟了从初始访问、横向移动、权限提升到数据窃取的完整攻击链,攻击步长从最短2步到最长6步不等,覆盖真实APT攻击的多个阶段,支持攻击链检测和威胁情报研究。

APT 知识库

APT Knowledge Base

0
恶意流量规则
0
APT流量规则
0
APT报告
0
涉及APT组织
标注TTP的流量检测规则 5类75种流量特征 109840条流特征 攻击目标/攻击链/攻击组织 IOC/样本/工具/TTP

科研成果

Research Achievements

🏆

顶级会议论文录用

相关研究工作被国际顶级会议 ICASSP 2025 录用
论文:APTSniffer - Towards Robust APT Sniffer Based on API-Level Network Traffic

🥈

2024 "强网杯" 全国二等奖

基于ZAPT数据集的研究成果支撑团队在全国网络安全竞赛中获得优异成绩

APT流量检测排行榜

权威的APT流量检测模型评测榜单

排行榜

基于ZAPT数据集的模型性能评测

🚀 统一的特征提取与评测框架

我们设计了统一的特征提取框架和评测标准,您可以直接使用我们的库在ZAPT数据集上进行模型设计和评测,确保公平、一致的性能对比。

📦 访问评测框架 →
排名 模型名称 准确率 精确率 召回率 F1分数 代码链接
1
DeepAPT-Transformer
信息工程大学
96.8% 95.4% 97.2% 96.3% 🔗 GitHub
2
FlowNet-LSTM
复旦大学
94.5% 93.8% 95.1% 94.4% 🔗 GitHub
3
APTGuard-CNN
南京邮电大学
93.2% 92.5% 93.8% 93.1% 🔗 GitHub
4
TrafficAnalyzer-GRU
中国科学院信息工程研究所
91.7% 90.9% 92.4% 91.6% 🔗 GitHub
5
SecureFlow-Attention
哈尔滨工业大学(深圳)
90.3% 89.6% 91.1% 90.3% 🔗 GitHub

📢 提交您的模型

如果您开发了基于ZAPT数据集的APT检测模型,欢迎提交到开源榜单!请在GitHub上开源您的代码,并发送邮件至 axuhongbo@126.com 附上模型说明、性能指标和代码链接。

排名 模型名称 准确率 精确率 召回率 F1分数 提交机构
1
Enterprise-APT-Detector
国家互联网应急响应中心
97.5% 96.8% 98.1% 97.4% CNCERT
2
AdvancedThreatNet
信息工程大学
95.9% 95.2% 96.5% 95.8% IEU
3
IntelliDefense-Pro
清华大学
94.8% 94.1% 95.4% 94.7% Tsinghua

🔒 提交闭源模型

对于不能开源的模型,您可以将模型代码文件发送给我们进行统一测试。我们承诺严格保护您的代码和技术细节。 请联系邮箱:axuhongbo@126.com

论文引用 & 学术影响力

ZAPT数据集在全球学术界的应用与认可

🌍 全球使用分布

ZAPT数据集已被多个国家和地区的顶尖研究机构使用

🇨🇳
6
中国
🇰🇷
1
韩国
🇹🇳
1
突尼斯

使用机构

Institutions Using ZAPT Dataset

信息工程大学
🇨🇳 中国 · 郑州
复旦大学
🇨🇳 中国 · 上海
南京邮电大学
🇨🇳 中国 · 南京
哈尔滨工业大学(深圳)
🇨🇳 中国 · 深圳
中国科学院信息工程研究所
🇨🇳 中国 · 北京
国家互联网应急响应中心
🇨🇳 中国 · 北京
Kwangwoon University
🇰🇷 韩国 · 首尔
University of Monastir
🇹🇳 突尼斯 · 莫纳斯提尔

引用论文

Papers Citing ZAPT Dataset

APTSniffer: Towards Robust APT Sniffer Based on API-Level Network Traffic
Hongbo Xu et al.
ICASSP 2025
LENS: Lightweight and Explainable LLM-Based APT Detection at the Edge for 6G Security
Suhib Bani Melhem, Muhammed Golec, Abdulmalik Alwarafy, Yaser Khamayseh
IEEE Access 2025 vol.13, pp.172402-172415

提出了一种轻量级且可解释的基于大语言模型的APT检测方法,专为6G网络边缘安全设计。

📚 Google Scholar
LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy
Muhammed Golec, Yaser Khamayseh, Suhib Bani Melhem, Abdulmalik Alwarafy
IEEE Access 2025 vol.13, pp.145271-145288

针对6G无线网络中大语言模型驱动的APT检测技术进行系统性综述,提出了完整的分类法。

📚 Google Scholar

📄 更多论文持续更新中...

如果您的论文使用了ZAPT数据集,欢迎通过邮件告知我们,我们将在此处展示您的工作。 联系邮箱:axuhongbo@126.com

相关竞赛

Competitions Using ZAPT Dataset

🚧 竞赛筹备中...
我们正在筹备基于ZAPT数据集的APT流量检测竞赛,敬请期待!如有合作意向,请联系:axuhongbo@126.com

ZAPT 社区

恶意流量检测工具平台 & 资源中心

常用工具

Essential Tools for Traffic Analysis

🦅
Suricata
开源的网络威胁检测引擎,支持IDS、IPS和网络安全监控。
访问官网
🦈
Wireshark
世界上最流行的网络协议分析器,用于故障排除、分析和软件开发。
访问官网
📦
dpkt
Python库,用于快速、简单的数据包创建、解析和定义。
访问GitHub
🌊
nfstream
强大的网络流量分析框架,支持实时流量特征提取。
访问官网

学术资源

Research Resources & Papers

📚 ETA-Resource - 加密流量分析资源库

加密流量分析(Encrypted Traffic Analysis)领域的综合资源库,包含代表性论文、数据集、研究团队和工具。涵盖流量分类、入侵检测、网站指纹识别、在线检测等多个研究方向。

🔗 访问 GitHub 仓库

🎯 精选论文

预训练方法
TrafficFormer: An Efficient Pre-trained Model for Traffic Data
IEEE Symposium on Security and Privacy (S&P) 2025

首个面向流量数据的高效预训练模型,使用Transformer架构处理网络流量序列。

预训练方法
ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers
The Web Conference (WWW) 2022

基于BERT的加密流量表示学习方法,通过预训练捕获数据报文的上下文语义。

综述与基准测试
SoK: Decoding the Enigma of Encrypted Network Traffic Classifiers
IEEE Symposium on Security and Privacy (S&P) 2025

系统化总结加密网络流量分类器的研究现状、方法论和挑战。

流量分类
FS-Net: A Flow Sequence Network For Encrypted Traffic Classification
IEEE INFOCOM 2019

创新性的流序列神经网络,用于加密流量的精准分类。

入侵检测
Kitsune: An Ensemble of Autoencoders for Online Network Intrusion Detection
Network and Distributed System Security (NDSS) 2018

基于自编码器集成的在线网络入侵检测系统,无需标注数据。

网站指纹识别
Deep Fingerprinting: Undermining Website Fingerprinting Defenses with Deep Learning
ACM Conference on Computer and Communications Security (CCS) 2018

使用深度学习突破网站指纹识别防御机制的研究。

📊 相关数据集

CIC Datasets

Canadian Institute for Cybersecurity - IoT, DNS, IDS数据集

VisQUIC Dataset

QUIC协议网页流量数据集

CipherSpectrum

TLS 1.3加密网页流量数据集

CTU Malware Capture

捷克理工大学恶意软件流量数据集

数据集贡献

Dataset Contributors & Partners

🤝 合作单位

🛡️
CNCERT
国家互联网应急响应中心
🎓
清华大学
Tsinghua University

🏆 贡献者排行榜

1
H
Hongbo Xu
信息工程大学
2044
2
L
Li Zhang
清华大学
856
3
W
Wei Wang
CNCERT
623

💝 希望贡献数据?

如果您有高质量的APT攻击流量数据愿意贡献给ZAPT数据集,我们非常欢迎!您将获得贡献者积分,并在排行榜中展示。 请联系邮箱:axuhongbo@126.com