全网AI资源网站搭建

电脑端+手机端+微信端=数据同步管理

免费咨询热线:13114099110

网站分类-(网站风格分类)

发布时间:2023-01-21 10:00   浏览次数:次   作者:派坤优化

加密流分类逐渐成为网络负载管理和安全威胁检测中自动识别目标应用、服务和协议的主要方式。 现有模型通常使用带有准确注释的大规模会话样本来提取流量的深度可识别特征,例如证书链、数据包长度序列和方向序列。 然而,在网络环境(如局域网)中,流量包含各种场景,这些方法不具备鲁棒性和通用性以适应不同场景的迁移,在小规模标记样本下达到预期效果.

在WWW 20222文章中,中国科学院信息技术研究所的研究人员提出了一种流量表示模型ET-BERT,可以有效地学习未标记流量中的隐式关系,从而提高不同场景下的流量分类效果。 研究人员考虑了交通传输的结构特征和消息格式,参考自然语言处理中的大规模预训练架构,将交通消息( )作为符号序列(token ),捕捉其中隐藏的信息大规模无标签流量。 上下文关联,然后使用小规模标注的特定场景任务进行进一步训练,完成最终的分类任务。

ET-BERT可应用于多种加密流量场景,如新加密协议TLS 1.3网站及应用分类、加密隧道VPN应用分类、匿名通信Tor应用分类、恶意服务分类、非平衡加密移动应用分类等场景。 在公开数据集ISCX-VPN、ISCX-Tor、USTC-TFC、Cross-和中国科技网TLS 1.3数据集上的实验结果表明,ET-BERT可以有效应用于多场景任务,提高分类效果. 该方法对加密流量分类技术研究和全加密网络时代网络空间安全维护具有重要启示。

论文链接:

代码链接:

一、背景介绍

近十年来,随着网络传输协议加密的发展,流分类研究工作不断优化,以满足实际场景中的流分类需求。 现有工作已经意识到流量和加密的爆炸式增长已经不能再依靠专家经验来手动构建由明文字段组成的指纹库。

基于明文包头字段信息的聚类和互相关的方法优化了对专家经验的依赖,但在完全加密的新加密协议TLS 1.3中仍然无法发挥作用。 另外两种典型方法依靠专家经验构建流序列的统计特征,并使用深度模型学习原始流序列的表示。 它们优化了模型对明文的依赖,但需要大量的人工成本或准确标记的流序列。 由于加密协议全加密的发展趋势和隐私保护相关法律的日益完善,获取准确标注的大规模流量不仅是一个工程难题,也面临着社会管理和法律合规方面的挑战。 因此,现有的典型三类方法的缺点是显而易见的。

在自然语言处理和计算机视觉领域,提出了无监督的大规模预训练模型,并在相应领域取得了里程碑式的发展。 在自然语言处理中,BERT 等人的工作提出,即使没有标签,文本词和句子之间也存在关系,可以学习并帮助构建这些自然语言的表示,对于现有问题的解决具有明显的好处得到解决。 但如何将其引入加密流量中,有效进一步解决现有的挑战,是本文关注的重点。

他等人。 是近年来首次将预训练架构应用于加密流量分类任务的已知尝试,但研究人员发现他们的尝试仍有很大的优化空间。 网络流量本身是一系列没有语义的编码符号,但网络传输过程受实际内容(如文本、图片、音频、视频等)的差异影响,硬迁移的效果并不理想。

因此,研究人员认为:

l 现有的加密流量特征挖掘模型没有考虑到加密流量在不同场景下具有流量的共性特征,在流量表征过程中只关注单一场景;

l 引入预训练架构的现有模型没有深入挖掘和利用流量传输行为与不同应用之间的关系。

二、方法介绍

为了应对这些挑战,研究人员提出了一种基于挖掘流量上下文和传输关系的加密流量表示模型——ET-BERT(来自)。 该方法利用掩码BURST预测任务(BURST模型)和同源BURST预测任务(Same-BURST)来挖掘和表征加密流量包的隐含关联信息。

研究人员表明,ET-BERT 的关键思想是从原始流量数据包中捕获鲁棒和通用的关联,不仅可以有效地将其应用于过去和现在的不同网络流量场景,还可以适应完全加密的未来网络流量场景。

描述:加密流量及其结构

流量在网络传输中以二进制比特流的形式存在,主要结构单元是数据包和会话流。 其中,数据包是最小的完整传输单位; 会话流由通信设备两端的一个完整交互单元组成,由多个数据包组成; BURST结构在本文中被定义为会话流中的一种局部结构,它由单向通信在会话流中传输的连续n个数据包组成。

ET-BERT

具体来说,该方法主要分为三个部分:A. 将加密流量预处理并编码为由令牌组成的 BURST 结构,B. 预训练学习加密流量消息的关联关系,C. 将预训练模型应用于任务期间的下游微调。

预处理阶段的关键是提取具有内容传输特性和明显偏向数据信息的BURST结构的原始会话流量。 BURST结构是在与客户端交互时,由于不同网络服务内容的内容结构不同而产生的具有传输特性的流量结构。 与直接使用完整的消息作为模型输入进行表示学习相比,这种预处理可以更好地结合本文使用的预训练任务。

预训练阶段的关键是利用自监督学习任务从大规模无标签BURST结构化流量包中捕捉内容的上下文关系和流量传输的同源关系。 在网络流量中,离散的加密数据包作为基本单元,不能体现不同应用和服务的差异性。 为了挖掘交通信息之间的可区分特征,研究人员不仅学习了符号上下文的掩码预测,还将 BURST 结构截断成对,并预测从同一 BURST 派生的 BURST 子对。 与只学习符号上下文关系相比,这两个自监督任务可以兼顾流量的传输关系和内容相关性,更好地服务于下游场景。

微调阶段是用两种通用输入结构处理不同场景的标注流量数据,包括数据包级别和流级别。 这两类处理也是应用场景中常用的模式。 在预训练模型的基础上,我们继续进行较少轮数的训练,以满足最适合特定场景的识别需求。

三、实验与分析

为了证明所提出的 ET-BERT 框架的有效性,研究人员对网络流量分类公共数据集 ISCX-VPN、ISCX-Tor、USTC-TFC 和 Cross- 以及自行收集的 CST-NET TLS 1.3 数据集进行了测试. 实验过。 采用准确率指标macro-、准确率指标macro-、召回率指标macro-、F-index macro-F1进行评价。

一、总体成绩

研究人员在所有场景任务中,将 ET-BERT 模型与 5 个场景下的 11 个代表性模型进行了比较,包括 CUMUL、BIND、K-fp、FS-Net、、和 PERT。 具体结果见表 2 和表 3。

从结果可以看出,虽然FS-Net等传统模型在个别场景的数据集下表现强劲,但在不同场景下的可迁移性不足,而ET-BERT在所有场景下的性能波动性明显优于对比模型。 此外,该研究在测试集上取得了优于其他方法的结果,进一步证明了ET-BERT强大的泛化能力。

2.消融实验

研究人员为这项研究进行了消融实验,以了解在 ET-BERT 中拥有和不拥有单独模块和处理模式的影响。 如表4所示,研究人员选择了学术界广泛引用的ISCX-VPN数据集作为消融实验的数据来源。 ET-BERT在测试集上的性能在没有单个模块的情况下有不同程度的下降,验证了每个提出的模块在表征加密流量方面都起到了积极的作用。

3.解释分析

从结果来看,迄今为止的数据都显示了 ET-BERT 的可靠性能网站分类,但研究人员已经探索并解释了为什么加密流量可以在没有语义背景的前提下使用自然语言处理领域的 BERT 思想。 这非常有利于进一步提高模型在交通场景中的泛化能力。

在密码系统中,理想的安全密码系统包含两个特性:雪崩效应和完备性(扩散和混淆特性),可以保证加密数据的真正随机性,使攻击者无法获得任何有助于破译信息的有意义的模式。 然而,在真实的密码系统中,并没有实现完全的随机性,网站和应用中部署的不同加密算法随机性不一致。 为了衡量现有常用加密算法的安全强度和密码组在实际流量数据中的分布情况,研究人员对五种常见类型的密码组进行了NIST随机性测试评估和密码组统计。

如表5所示,在15个随机性测试项下,不同密码套件表现出的随机性指标存在显着差异,这种随机性差异会放大不同密码套件部署的加密流量之间的区别。 同时,如图3所示,研究人员发现,在6个测试场景的数据集中,TLS 1.3部署了随机性较强的密码套件,分布维度过于单一。 比较分类性能结果,研究人员建议,密码套件的实际部署可能会导致更容易识别的加密流量数据。

4.质量分析

(1)小样本场景分类质量

如图4所示,通过压缩训练数据大小和实验测试,研究人员表明网站分类,ET-BERT在三个不同大小的小样本场景中,即使在10%的数据大小下,也比其他典型的代表性方法具有更稳定的性能。 大约90%的macro-F1结果仍然维持在数量级(50左右)。

(2) 结果可视化对比质量

如图 5 所示,研究人员通过分类结果的可视化展示了 ET-BERT 的卓越性能。 对多类别样本的类内距离和类间距离的边界识别更加清晰,具有相似流量特征的类别也能保持较高的性能。 误检率低。

四。 概括

研究人员提出了一种用于加密流量分类的流量表示模型ET-BERT。 该模型采用基于网络的预训练-微调设计结构,极大地改变了传统流量分类研究依赖于大规模标注流量和大量专家经验知识的方式。 问题。 ET-BERT具有很好的泛化能力,可以适应不同的加密流量场景,包括新的加密协议。 对在未来全加密网络中应用更通用、更可靠的网络行为分析技术具有很好的启发作用。

此外,研究人员表示,与统计特征构建的方法相比,目前的工作在可解释性和理解性方面仍然存在不足。 同时,未对数据中毒、场景漂移等不稳定因素的干扰进行进一步的测试验证。 研究人员计划在未来的研究工作中尝试解决这些问题,进一步确保在全加密网络中的可靠性和可用性。

关于作者和团队:

中国科学院信息工程研究所(中国科学院大学网络空间安全学院)博士生林新杰,在熊刚老师的网络行为分析与对策组和交叉学科进行研究。余静先生模态智能研究组。 研究方向为加密流量分析与预训练学习,个人主页:.

中国科学院信息工程研究所网络行为分析与对抗团队的主要研究领域为网络测量与行为分析、信息对抗理论与技术、网络取证技术、海量数据挖掘与分析等。研究工作在 , WWW, , & , ACSAC , WWWJ, CIKM, of , RAID, IWQoS 等国内外重要会议期刊。

中国科学院信息工程研究所跨模态智能课题组主要研究领域为多模态信息表示、记忆、推理、生成与积累等,应用场景包括跨模态信息检索、视觉问答/对话、图像/视频描述生成、视觉场景图生成等,相关研究工作发表在CVPR、ICML、AAAI、IJCAI、ACM MM、TIP、TMM等重要国际会议和期刊上.,课题组主页:.

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。