【顶会解读】安全运营中的告警分诊技术解析

阅读： 3,912

SIEM等中心化数据分析平台汇聚的海量告警及其关联的日志，对安全运营团队产生了“DoS攻击”，造成告警疲劳现象，已成为安全运营中心运营效率提升的关键阻碍之一。为实现有效攻击事件的快速定位，并支持事件溯源、响应和取证，亟需更鲁棒、完备、高效的自动化告警分诊技术，来应对大规模、准实时告警数据流，全面促进运营中威胁分析流程的运转效率。

本文将从技术需求、技术解析和技术趋势三个方面，解析AISecOps智能安全运营技术栈组成之一——数据、知识驱动的智能告警分诊（Intelligent Alert Triage）技术。

一、需求：告警疲劳侵袭安全运营中心

信息过载已成为安全运营中心（Security Operations Center, SOC）所面临的的普遍问题之一。在有限的资源投入下，当SOC信息过载，情报、事件、告警等关键指示器数据无法得到有效的分析和处置，进而进入持续积压的恶性循环，这是造成疲劳现象的本质原因。此外，告警无效无关、误报率居高不下、告警缺乏研判上下文、告警处置自动化程度低等技术挑战是加剧告警疲劳的直接原因。

如表1所示[1]，调查人员通过访谈、调研，统计了SOC分析人员和管理人员角度所面临的，在运营层次、技术层次和人员知识层次的主要挑战。表中涉及的每一项挑战，都可加剧SOC团队的告警疲劳情况。

告警疲劳是整个安全运营中心团队所面临的巨大挑战。首先，大规模告警、7*24小时运营周期与高要求运营指标，将直接影响每个运营人员的工作效率和工作状态，造成人力资源的低质量转化，投入产出比降低。于此同时，信息爆炸引发的关键运营目标“失焦”，将导致低频、隐匿的高级威胁行为线索被淹没，攻击定位、溯源时间被拉长，MTTR/MTTD运营指标难以达成。

二、解析：数据/知识驱动的告警分诊

首先，图1给出了一个基于SIEM平台的安全运营中心告警确认运营流程模型[2]。SIEM汇聚了包括安全设备告警（Alerts），上下文信息和日志，并通过内置逻辑生成平台告警（Alarm）。这里Alert和Alarm是两类不同层次的告警日志，并不必特意区分其内涵。一般安全运营场景下，SIEM以一定的聚合模式、分析模式将设备告警输入转化为平台告警输出。安全运营团队分析人员基于自身知识或称为经验（Knowledge）和外部影响因素（Influential Factors）约束，完成平台告警的确认（Validation）。该运营流程实际上概要的给出了告警分诊模型（Alert Triage Model）。

在该模型中，分诊的执行主体是由运营分析人员。运营分析人员作出分诊判断的输入是SIEM的平台告警、知识水平和外部影响，输出是对平台告警的分类结果——主要包括三类，误报、真实告警和与良性业务或行为触发的噪声告警。值得注意的是，告警分诊是一个全量分类过程。即，对于任意一条SIEM触发的告警，安全运营人员须给出一个分诊的分类结果。尽管技术误报现状难以避免并可加剧告警疲劳，但是漏报可产生更致命的潜在影响。强调全量，正是为了突出SOC运营目标中覆盖率和漏报率的必要性。

在大规模日志、告警、情报汇聚的特定安全运营场景下，需要通过数据驱动、知识驱动的智能化方法，来提升告警分诊流程的自动化与智能化程度。为此，本文在上述模型的基础上，提出智能告警分诊模型，如图2所示。该模型中机器智能体现在两点，一是知识驱动，通过安全知识图谱，实现对原始输入信息的知识富化、语义增强，提升机器数据的可读性；二是数据驱动，在SIEM平台中实现自动化的分诊机制，通过该机制融合动态数据、结构化知识以及运营分析人员的反馈，实现数据规范化，完成告警动态评级，并最终筛选出面向当前运营需求的告警，并以风险排序的方式反馈给运营分析人员。

显然，该安全告警分诊模型仍然是以人为中心的。在当前机器智能缺乏足够的可信任性和可靠性的技术条件下，自动化/半自动化的告警分诊机器智能主要用于运营辅助环节，而由运营分析人员对最终的分诊结果负责。机器智能的目标，在于通过数据关联与统计挖掘，实现对原始数据的规范化、标签化，完成过滤、排序、组装过程，并向分析人员提供足够的解释信息、证据信息，支撑对自动分诊结果的研判和审计。

三、趋势：智能分诊技术的REACT属性

数据、知识驱动的智能分诊，是网络安全运营领域的一个系统性的AI应用问题。需要解决从数据建模、数据规范化到关联分析、基线建模、自适应优化等多方面的子问题。针对智能分诊的核心技术需求，牛津大学研究者给出了几条关键属性[2]，对实战化的分诊技术实现有着比较好的指导意义，主要包括以下REACT（Reliable, Explainability, Analytical, Contextual, Transferable）属性：

Reliable（可靠性）。需要从告警规则、模型的设计之初考虑其可靠性，主要包括面对动态环境的自适应性以及平衡覆盖率与误报率。
Explainability（可解释性）。低质量的告警信息描述以及黑盒的模型告警，将导致运营分析人员无法准确、快速的理解告警意图，进而导致告警研判延迟加剧。
Analytical（可分析的）。减少对专家经验的依赖，提供可自动推理、可溯源关联的分析机制与基础设施，保证告警产生过程、最终结果的可推导性、可分析性。
Contextual（上下文支撑的）。通过关联分析及可视化技术，将告警关联的资产、情报、行为、知识等各类数据进行串联和组织，形成较为完备的、可作为判断依据的原理与证据链条。
Transferable（可迁移性）。安全运营指标是任务目标、部署环境紧耦合的，这要求所开发部署的策略、模型等检测手段需要具备可配置、可迁移的能力，以加速知识和经验的固化和流转，快速适应不同的网络与攻防对抗环境。

REACT是安全运营中，自动化、可信任的告警分诊技术的几个必要属性。这些属性对传统基于专家规则的方法、以及基于机器学习的方法都是适用的，需要在检测规则、识别模型设计之初以及告警运营分析的整个过程中，按照对分诊结果负责的目标确保技术属性的实施。

四、总结

告警疲劳已是限制安全运营中心效率提升的关键问题之一，而告警的质量有限，包括误报率高、缺乏上下文、难以自适应环境等，是造成告警疲劳现象的直接原因。为此，探索基于大规模告警，及上下文、知识、日志等各类型数据，构建面向运营辅助的、自动化的、可信任的机器智能分诊技术栈变的尤为关键。

本文重点介绍了安全运营中心面临的告警疲劳现状，并结合顶会研究成果和实际的安全运营实践，解析了智能告警分诊模型和分诊技术的REACT需求属性，希望为读者在AISecOps的技术探索带来新的思考。

参考文献

[1] Matched and Mismatched SOCs: A Qualitative Study on Security Operations Center Issues, CCS 2019

[2] 99% false positives: A qualitative study of SOC analysts’ perspectives on security alarms, USENIX 2022

本站“技术博客”所有内容的版权持有者为绿盟科技集团股份有限公司（“绿盟科技”）。作为分享技术资讯的平台，绿盟科技期待与广大用户互动交流，并欢迎在标明出处（绿盟科技-技术博客）及网址的情形下，全文转发。
上述情形之外的任何使用形式，均需提前向绿盟科技（010-68438880-5462）申请版权授权。如擅自使用，绿盟科技保留追责权利。同时，如因擅自使用博客内容引发法律纠纷，由使用者自行承担全部法律责任，与绿盟科技无关。

【顶会解读】安全运营中的告警分诊技术解析