开放环境下的鲁棒异常检测

机器学习模型有效的前提假设是:训练阶段与模型部署阶段的数据分布一致,然而在真实世界中,数据往往是变化的,输入与输出之间的关联性也会发生变化,这种现象(概念漂移)会导致机器学习模型的表现下降;异常检测任务作为安全领域的一项重要任务,应用领域广泛,异常检测的模型同样会受概念漂移现象的影响。为了提高异常检测算法的鲁棒性,本文介绍一篇NDSS2023年的论文[1],该论文关注正常行为的变化情况,剔除过期正常行为,添加新增正常行为,从而使模型适应数据的变化,提高鲁棒性。

一、背景

在安全领域中,业内往往使用UEBA(用户实体行为分析)的方法进行异常行为识别,该方法通过对正常行为进行建模,从而区分异常行为,更近一步,在安全领域,攻击行为千变万化,异常行为不能被枚举,而UEBA方法仅对正常行为进行建模,异常行为无论怎么变化理论上都能被检测出来,对异常行为变化免疫的这一特性也使得UEBA的方法备受推崇。然而在实际操作中,UEBA的方法会面临大量误报,产生误报的原因主要由两方面(图1):

  1. 1. 方法固有问题。异常数据中仅有少量的攻击数据,而安全领域中往往比较关注攻击事件,将海量非攻击行为触发的异常数据当做误报。输出结果包含大量误报是UEBA方法自身的局限,该局限性也是制约UEBA方法落地的主要因素,笔者认为,UEBA方法是异常检测的中间步骤而不是最后一步,对于海量异常数据应该进行合适的后处理操作。
  2. 2. 模型的适应性问题。随着数据的变化,正常模式也在发生变化,会有新的正常模式出现,旧的正常模式可能在新数据上为异常模式,而目前UEBA的方法无法捕捉这种正常模式的变化,导致模型效果随着时间的推移逐渐下降甚至不可用。该问题是本文的重点。

图1  UEBA方法的误报产生原因

UEBA方法在学术界成为异常检测,下文对于两者不进行区分。

二、文章介绍

2.1 常态漂移

“常态漂移”是文章提出的新概念,表示正常数据的分布随时间的变化而变化。在介绍常态漂移之前,我们先介绍“概念漂移”。

概念漂移是监督学习中的常见概念,表示样本分布与标签分布之间映射关系的变化,即x,y(x为样本,y为标签)联合概率的变化,由于,概念漂移问题的来源有3个:1. 变化,2. 变化,3. 两者同时变化。

与概念漂移不同,常态漂移仅关注正常数据的漂移,如果将样本空间分为正常样本空间和异常样本空间,,则常态漂移关注,由于与模型本身无关,不会降低模型的质量,因此仅需关注部分即可,而异常检测模型学习的是x与y之间的映射关系,即,关注对象变为,为了区分数据分布变化前后后验概率的变化,将新正常数据空间表示为,旧正常数据空间表示为,则需要比较的对象变成了与,

2.2 检测框架

为了检测正常数据分布的变化,文章提出OWAD(Open-World Anomaly Detection)框架,框架流程如图2所示,假设样本{,}是从旧正常样数据中采集的5个样本,{,}为新正常数据采集的5个样本,以这些数据为样例,整体流程如下:

  1. 使用一种无监督校验方法对异常检测的结果进行校验,输出预测的置信度,可以进行归一化,扩大差异范围;
  2. 利用假设检验的方法计算输出样本空间是否是符合相似的分布;
  3. 基于最优化的方法提供可解释性,对于每个旧样本和新样本给出权重,该权重意味着对漂移现象的影响程度,这个模块的目的在于重构正常样本的空间,为了最小化打标签的成本,需要尽可能沿用旧样本空间的数据,如图2所示,高可信样本包括,和,可以看到已经淘汰,作为新增数据加入正常样本空间。
  4. 计算异常检测模型各个参数对于新分布重要程度,设置损失函数的惩罚项根据新样本更新参数的重要度,从而更新模型。

图2 OWAD流程图[1]

2.3 测试结果

文章选取3种数据集以及几种的基准方法做比较,展示了该方法的有效性。

3种数据集:

  1. 入侵检测数据集NID[2]。该数据集收集京都大学2006年到2015年的蜜罐数据,使用KitNET[3]方法作为基础异常检测算法。
  2. 日志数据集LogAD[4]。该数据集采集自BlueGene/L超算集群214天的系统日志,使用DeepLog[5]方法作为基础异常检测算法。
  3. 3. APT数据集[6]。该数据集采集自美国洛斯阿拉莫斯国家实验室,包含58天的用户登录数据,涉及海量用户和设备,使用GLGV[7]做图嵌入和异常检测模型。

基准方法包含5种,前两种为:不升级模型和同时使用新数据和旧数据升级模型,剩余3种使用解决模型鲁棒性的方法做比较:UNLEARN[7]、CADE[8]、TRANSCENDENT[9],这3种方法从不同角度做模型的鲁棒性优化,本文在此不做介绍。

本文截取其中一组实验结果做展示,如图3所示,结论如下:

图3 5种方法在3种数据集上的实验结果

  1.  从鲁棒性方面。OWAD在所有方法中鲁棒性最好,随时间增加,效果减少最小。并且文章发现越早应用模型,模型越鲁棒。
  2.  从标记成本方面。由于新数据需要进行人工标定才能进行新模型的训练,这里涉及到人工成本问题,可以看到OWAD整体上标记成本最低。

三、总结

模型的鲁棒性是机器学习领域的重要研究问题,也是通用人工智能需要解决的最重要的问题。在安全领域,异常检测算法的鲁棒性是算法落地生效的关键问题之一,本文通过介绍最新的提升异常检测算法鲁棒性的论文,该论文通过自动化方法,发现新旧数据集正常数据分布的变化,淘汰旧数据,增加新数据,并且设计了一套完整的模型更新方法。希望读者可以通过该文借鉴并思考算法在安全领域的落地使用问题。

参考文献

[1] Han, Dongqi, et al. “Anomaly Detection in the Open World: Normality Shift Detection, Explanation, and Adaptation.”

[2]Song, Jungsuk, et al. “Statistical analysis of honeypot data and building of Kyoto 2006+ dataset for NIDS evaluation.” Proceedings of the first workshop on building analysis datasets and gathering experience returns for security. 2011.

[3]Mirsky, Yisroel, et al. “Kitsune: an ensemble of autoencoders for online network intrusion detection.” In Network and Distributed Systems Security (NDSS) Symposium, 2018

[4]Oliner, Adam, and Jon Stearley. “What supercomputers say: A study of five system logs.” 37th annual IEEE/IFIP international conference on dependable systems and networks (DSN’07). IEEE, 2007.

[5] Du, M., Li, F., Zheng, G., & Srikumar, V. (2017, October). Deeplog: Anomaly detection and diagnosis from system logs through deep learning. In Proceedings of the 2017 ACM SIGSAC conference on computer and communications security (pp. 1285-1298).

[6] Bowman, B., Laprade, C., Ji, Y., & Huang, H. H. (2020, October). Detecting Lateral Movement in Enterprise Computer Networks with Unsupervised Graph AI. In RAID (pp. 257-268).

[7] Du, Min, et al. “Lifelong anomaly detection through unlearning.” Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019.

[8] Yang, L., Guo, W., Hao, Q., Ciptadi, A., Ahmadzadeh, A., Xing, X., & Wang, G. (2021, August). CADE: Detecting and Explaining Concept Drift Samples for Security Applications. In USENIX security symposium (pp. 2327-2344).

[9] Jordaney, R., Sharad, K., Dash, S. K., Wang, Z., Papini, D., Nouretdinov, I., & Cavallaro, L. (2017). Transcend: Detecting concept drift in malware classification models. In 26th USENIX Security Symposium (USENIX Security 17) (pp. 625-642).

版权声明
本站“技术博客”所有内容的版权持有者为绿盟科技集团股份有限公司(“绿盟科技”)。作为分享技术资讯的平台,绿盟科技期待与广大用户互动交流,并欢迎在标明出处(绿盟科技-技术博客)及网址的情形下,全文转发。
上述情形之外的任何使用形式,均需提前向绿盟科技(010-68438880-5462)申请版权授权。如擅自使用,绿盟科技保留追责权利。同时,如因擅自使用博客内容引发法律纠纷,由使用者自行承担全部法律责任,与绿盟科技无关。

Spread the word. Share this post!

Meet The Author