智能威胁分析之图数据构建

RSAC大会的热度似乎持续了一整个北京的春天,直播、新闻、技术解读、研讨活动让人应接不暇。从RSA大会官网上查询今年“Better.”主题的由来和背景,发现会议主题的设计虽然从字面似乎是表达“去年做的不错,今年再接再厉”的客观评价,不过更多的,是大会对安全行业“不忘初心”的鼓励。“最重要的是,永远不要忘记我们来到这里的根本原因:帮助确保一个更安全的世界,这样其他人就可以着手让世界变得更美好。” 看到这里,读者脑海中是否也回荡起Michael Jackson的经典歌曲“Heal the world, make it a better place…”闲言少叙,作为网络安全数据应用的研究者,常常会思考的一个问题,是怎么才叫安全智能,怎么才能让网络安全更智能(better)?

基于深度神经网络的AI技术在许多领域有所突破,而在网络安全中的应用总体来看仍然是有限的落地。当前阶段,期望通过层级的深度神经元网络,端到端的识别、关联和响应威胁事件,可以说是有些不切实际。算法专家周涛给出了AI在威胁检测中难落地的几点总结:

  • 机器学习擅长发现正常模式,但入侵是异常行为
  • 有大数据并不等于有大量标注的数据,无监督学习方法的精度有限
  • 威胁检测是一个开放问题,难以定义损失函数
  • 对结果可解释性的追求

从模型、数据,再到应用场景,以上几点比较深刻的阐述了机器学习,特别是深度学习难与安全建模契合的原因。不过,深度学习、机器学习技术不是AI技术的全部。在网络空间中,构建具备异常感知、事件推理和威胁响应能力的智能威胁分析平台,深度学习、机器学习可以作为数据处理的常规武器,而不是核心能力。

数据从来都是AI可用性的基础,典型的“感知-认知-行动”智能应用模式的作用对象也是数据。那么构建更加自动化、更智能的威胁分析能力,我们应该收集和分析哪些数据,又如何组织这些数据呢?

一、 数据层次划分模型,DIKW

APT识别/跟踪,攻击溯源,威胁狩猎与响应,团伙分析,态势感知等安全防御目标已经远远超出了传统孤立检测系统的应用范畴。应用日志、主机日志、网络日志、检测事件日志、资产信息、评估结果及业务层面的员工信息等数据,已经逐渐融入SIEM和UEBA方案,同时,威胁情报信息也逐渐成为检测能力的标配。多源异构数据的接入和关联,为事件的可视化、检测、推理、响应和治理提供了全面的支撑。随着数据的丰富和检测、关联能力的提升、响应能力更自动化,各大厂商也逐渐开始思考智慧安全能力的构建,以针对安全数据实现更通用的自动化推理能力。

构建安全智能,首先面对的问题就是如何组织数据。首先简单回顾一下数据、信息、知识和智慧的金字塔分层模型DIKW[1]

DIKW pyramid

从“数据”到“智慧”的路途漫漫,不过随着攻防对抗的持续,安全行业的发展已经为我们触及安全智慧的边缘打下了夯实的基础。在此,我们将常见的安全数据按照DIKW模型进行粗略的分类:

  • 数据层(Data,原始的未经加工的):应用日志、主机日志、网络流量日志、蜜罐日志、网络架构数据、业务层数据等。
  • 信息层(Information,基于规则和行为的匹配加工的数据,有明确意义和时效的):各类检测日志,包括单数据源的检测和关联的检测;各类评估日志,包括主动获取的资产数据、脆弱性数据等;威胁情报。
  • 知识层(Knowledge,归纳的信息,可演绎推理):各类规范和知识库,如CWE、CNNVD、CAPEC、ATT&CK等。

以上分类大体说明了当前安全数据分析所能够掌握的资源及其层次。在安全数据分析的语境下,我们使用的“数据”一词表示所使用的一切数字资源,包括了数据层、信息层和知识层的结合。DIKW的模型描述了数据的分层结构,也是网络安全中最直接的处理模式的层次。

二、 数据组织形式,图模型

智能威胁分析技术的目标不应该是替代人解决一切网络安全问题,而是将安全数据分析、威胁事件的研判和响应的自动化做的极致的专家系统,以延伸人对安全数据的感知能力,降低人对信息和知识深入认知的代价,提升人对威胁事件的行动能力,真正促进网络安全的防护从被动挨打到主动出击。如乔治亚大学李康教授所言,诸多国际厂商正加紧智慧安全技术的布局,期望通过生态的构建吸纳规模更大、维度更高的数据,为安全赋能。不过,获取数据不是智能威胁分析技术本身的关注重点,如何组织并使用数据才是核心问题。

网络环境本身具有典型的图结构,网络安全问题也因此很自然的与图数据结构、图算法结合起来。在Google提出知识图谱的概念之后,以知识图谱技术为基础的智能应用方案,已经在推荐系统、问答系统、搜索引擎、社交网络、风控等领域广为使用。在安全领域,最常见的图就是各大安全产品中的可视化界面中资产关系图、攻击向量图等。通过图进行数据关联和推理方面,国内外厂商也在不断的进行深入的尝试。Microsoft Intelligent Security Graph已几乎全面攻占了Google引擎“Graph”+“Security”关键词的搜索结果。其通过云生态和平台全面融合、链接多方、多维数据,提供全面的威胁关联信息,并以云端的分析能力保证实时的威胁检测,此外更提供了可快速集成的API。在2019的RSAC上,微软安全团队介绍了数据重力(data gravity)的概念,以及云环境下基于检测和行为图及机器学习的威胁分析算法,该算法能够有效评估事件的风险。Sqrrl(2018年1月被Amazon收购)提供网络威胁狩猎平台,结合UEBA提出过“Behavior Graph”的概念,使用行为评估和关联数据支撑威胁事件的深入调查。发起和构建多个威胁建模知识库(CAPEC、CWE、ATT&CK等)及相关语言和规范(STIX 1.0、TAXII 1.0等)的MITRE公司在安全数据的图模型构建中已有深入的研究。CyGraph[2]是MITRE在图模型研究方面的原型系统。CyGraph使用了层级的图结构,包括网络架构(Network Infrastructure)、安全状态(Security Posture)、网络威胁(Cyber Threats)、任务依赖(Mission Dependencies)四个层次的图数据,用于支持针对关键资产保护的攻击面识别和攻击态势理解等任务。国外使用多源安全数据构建统一分析图结构的项目还有Cauldron[3]。Cauldron能够归一化漏洞扫描评估结果,并支持解析多种格式的防火墙规则,通过与网络拓扑的联合分析,能够有效分析网络攻击面的动态变化。国内方面,已有许多产品和研究关注安全数据的图分析方法,例如,绿盟科技结合知识图谱,设计了多个本体对整个网络威胁进行建模分析,并兼容MITRE的CAPEC、MAEC和ATT&CK等模型的接入和使用,能够从多方威胁情报中提取关键信息并作为知识对知识图谱进行扩展。阿里巴巴利用聚合的原始告警数据生成有向的攻击图,并通过攻击阶段映射、资产的网络分布及相关边的权重进行告警的优先级评估和攻击场景发现。

CyGraph 架构

如今,可收集的网络安全数据维度和规模不断增长,亟需系统的数据组织形式,尽可能将所有可用的信息组合成一个有机的整体。传统的基于关系型数据库的数据组织形式难以应对复杂的图关系操作,将数据组织成图结构,能够最大化发挥安全数据的图属性,提升数据存储、挖掘、检索的效率。网络安全数据结构中蕴含的图基因,不仅仅是数据可视化的基础,更是用以对抗网络空间威胁的安全智能构建的基础。那么,智能威胁分析能力的构建需要那些数据图的支撑呢?

三、 构建智能威胁分析能力的关键数据图

关键数据图构建

当前,大规模多维度网络安全大数据的接入,给网络威胁事件的处理造就了全新机会。同时,在有限可用资源的条件下,对安全数据源的甄选和统一处理也显得尤为重要。不同于DIKW的数据分层模型和CyGraph的安全/任务知识栈结构,从网络攻防的对抗本质出发,以给定的网络空间为战场,以保护资产(包括实体资产和虚拟资产)并打击威胁主体为目的,智能化的威胁分析应该收集并构建以下维度的关键数据图:

  • 环境数据图:如资产、资产脆弱性、文件信息、用户信息、IT系统架构信息等
  • 行为数据图:如网络侧检测告警、终端侧检测告警、文件分析日志、应用日志、蜜罐日志、沙箱日志等
  • 情报数据图:各类外部威胁情报
  • 知识数据图:各类知识库(如ATT&CK,CAPEC,CWE)等

各类安全关联数据(不限于以上四个类别)已在很多大数据分析场景中所采用,但是往往孤立应用或部分应用,没有统一的体系描述这些数据的分类和使用模式。这里列举的四类数据,从网络威胁事件分析应对的实践出发,通过图的形式组织起来,以实现每个类别图内关联和不同类别图间关联,能够覆盖网络空间对抗作战的基本战术需求,包括对环境的掌握、对威胁主体行动的理解、对外部情报的融合以及基本的知识储备。四图分立又通过指定类型的实体进行关联,保证了不同类型图数据表达能力的同时,实现了全局的链接能力。接下来,本文重点关注的是以上四张数据图对安全智能构建的必要性。

1.     环境数据图

“环境”可以定义为防护网络空间内的各类实体和实体的属性(基本信息、脆弱性、合规信息等),以及实体之间的关联关系。环境数据图的构建,需要资产管理、脆弱性管理、风险评估等工具和服务的支撑,也需要类似企业组织信息、IT系统架构信息、人力资源信息等业务数据来支持环境实体的丰富和关系建立。

Cauldron基于图的漏洞分析

安全防护不仅仅是构建更厚的防火墙,制定更多预算抵御可能随时发生的DDoS攻击。对资产、资产脆弱性、用户信息、IT架构信息的掌控程度,往往决定了网络空间防御能力的上限。提供资产管理平台方案的Axonius成为新晋的RSAC创新沙盒冠军,似乎提醒着大家,资产管理方案远未像理想中那么成熟。特别是在云、物联网、移动互联网迅速发展的时代背景下,资产数量剧增,类型更加丰富,脆弱性暴露的形势也更加严峻。“知己”比“知彼”显得更加关键,无论是暴露在公网的资产还是边界内未纳入管理的“黑资产”,都将大幅增加安全防护风险。为应对无孔不入的威胁,需要发现安全防护的关键实体、关键关系,在威胁事件发生的前后,对威胁的潜在影响范围、影响深度进行全面的评估,保证攻击面的准确识别。

2.     行为数据图

“行为”可以定义为可收集的、可检测的所防护网络空间内实体的动作。可以是DIKW数据层的各类原始日志,也可以是信息层的各类检测告警日志、聚合的推断告警日志。UEBA和SIEM的综合方案能够满足行为数据收集的需求。

Sqrrl: Behavior Graph

 

行为数据图的重要性不言而喻,从端点到网络,从主动到被动,从边界到内部,从规则到统计机器学习等等多维度的行为收集,能够全面刻画网络空间实体的行动踪迹,是识别、归类、响应、溯源任务的基本前提。通过多行为序列的聚合规则,生成新的告警事件的推理方法已在多种场景中应用起来。不过,行为的关联不应止于针对单个实体的行为聚合,多实体长时间区间的行为关联,才是行为数据分析的目标。从处理和存储效率上来看,将多实体的行为向量组织成图模型结构是行为关联的必由之路。行为采集的粒度很大程度上由已有的采集和检测能力决定,在这一点上,在保证归一化和体系化的基础上,“来者不拒”应该是行为收集的一个特点。行为图与环境图和知识情报图的主要特性差异,是行为图的时效性更短,更新和新增频率更高。合理的构造行为数据的本体模型、实体关系,设计行为与环境、知识的互动能力,并管理行为图数据的生命周期,是行为图发挥最大价值的关键所在。

3.     情报数据图

不同类型的“威胁情报”,可能会造成对情报概念的不同的解读。在此,对情报的定义可参考2014年Gartner的《安全威胁情报服务市场指南》,“威胁情报是一种基于证据的知识,包括了情境、机制、指标、影响和操作建议。威胁情报描述了现存的、或者是即将出现针对资产的威胁或危险,并可以用于通知主体针对相关威胁或危险采取某种响应。”以此定义为基础,可以说威胁情报与各类知识库各有侧重又相互交叉。

威胁情报,能够扩展赋安全团队的威胁视野,通过更多威胁上下文提升安全事件研判能力。现阶段,威胁情报已经成为重要的战略和商业资源,广泛的应用于安全运营、态势感知、威胁分析、风险评估、攻击溯源等多个领域。值得注意的是,不同的威胁情报提供商本身对威胁情报理解的维度和深度不同,构建可用的情报数据图,威胁情报胜在丰富、准确和时效性,选择符合特定业务场景的威胁情报源构建专用的情报图,是提升效率和可用性的关键。

4.     知识数据图

ATT&CK要素关系图[4]

知识与情报在不同的情景内常常出现概念的交叉。在这里,我们将归纳的、可用于推理的、与时间弱相关的安全数据称为知识数据,包括各类知识库,如ATT&CK,CAPEC,以及各类枚举库,如CWE,CVE,CNNVD等等。知识库的构建往往依赖专家经验、威胁情报的收集、验证和凝练,所抽象的概念和关系是通用的建模基础。当前,知识库的构建和共享已成为安全行业的共识,知识数据图能够提供特定环境和场景下威胁行为的关联知识,评估威胁行为的影响范围和深度,对潜在威胁做出预警,并给出合理的应对方案。知识图赋能下的威胁事件分析,能够拓展行为、环境、情报图关联实体的概念和数据上下文,是真正可解释、可推理、可行动、可复用的自动化、智能化分析。相对于更商业化威胁情报,知识库可以基于公开或开源的项目数据,国内外许多机构也正致力于建设更广泛、更专业的威胁关联知识库,如CAPEC、CVE、CNNVD、ATT&CK等等;也可以通过知识图谱技术,从多源数据中自动化抽取和构建知识图,并通过关系推理等方式对知识图进行拓展。

四、 总结

针对网络空间智能威胁分析技术的研究,目的不是设计一个如何炫目的概念,也难以实现一个放之四海皆可用的AI安全模型。回归到攻防的战场上,我们希望也能够得到的,是一个统一的、能吞吐海量异构多源数据,快速检测、推理、响应、追踪威胁事件的高度自动化平台及工具链,辅助人进行安全的运营、研究和对抗。本文从实践经验出发,基于对网络安全数据分析中常用数据源的再分类,提出了构建智能安全平台的图模型所需的环境、行为、情报、知识四张关键数据图,以支撑“智能化”安全研究工作的进一步开展。

当然,一个可用的、可拓展的图数据架构,不仅需要数据处理、存储框架等基础设施的支持,更重要的,是要保证不同种类的数据图内部和数据图之间的数据关联和交互。这一方面需要对图结构模式层的结构化的概念模板——本体库进行系统的设计与优化,包括实体种类、实体关系和实体属性等;另一方面,需要使用统一、可拓展的规范和语言(如STIX、MAEC、信息安全技术网络安全威胁信息格式规范等)对图结构数据层中的实例进行描述,并通过统一接口完成数据交互。此外,不同数据层数据之间的关联需要标准的命名、分类体系,例如,需要将企业定制化的IOC检测告警对应到知识库的指定知识节点上。这些工作本身就对传统的网络安全架构和实现提出了挑战。最后,从安全智能生态构建的角度,需要从数据、技术、架构、法规等更多的维度针对智慧安全技术建立行业标准,以迎接安全大数据的深入分享与交互,实现真正的行业智慧。

 

参考资料:

  • Rowley, J. The wisdom hierarchy: representations of the DIKW hierarchy[J]. Journal of information science, 2007, 33(2): 163-180.
  • Noel S, Harley E, Tam K H, et al. CyGraph: Graph-Based Analytics and Visualization for Cybersecurity. Cognitive Computing: Theory and Applications Elsevier , 2016.
  • Jajodia S, Noel S, Kalapa P, et al. Cauldron mission-centric cyber situational awareness with defense in depth[C]. MILCOM 2011 Military Communications Conference, 2011. 1339-1344.
  • MITRE ATT&CK: Design and Philosophy (https://www.mitre.org/publications/technical-papers/mitre-attack-design-and-philosophy)
文章分类:技术前沿.
转载声明:请注明 “转自绿盟科技博客”:.
文章收录:

发表评论