从安全事件响应流程谈 SOAR 的高效运维

一、前言

随着现代信息化的快速发展,全球已进入互联网+大数据+人工智能时代。网络在带给我们生活便利的同时,各种网络安全威胁也层出不穷,特别是数据泄露、DDoS攻击以及感染物联网设备僵尸网络等网络攻击事件日益严峻,传统的安全防护手段已经很难应对。因此,在信息化大数据时代,我们要以大数据技术对抗大数据时代的网络安全威胁。

二、ISOP简介

绿盟智能安全运营平台(ISOP),利用其强大的大数据分析能力及各类机器学习算法,快速检测各类威胁攻击,如APT攻击事件、Botnet事件、恶意样本传播、WebShell、隐蔽隧道,ARP攻击,账号口令暴力破解等,并产生运维事件(incident)。同时,兼具自动化编排与响应系统,用户异常行为分析系统,网站安全管理系统,一键处置闭环管理系统,脆弱性威胁管理系统。

三、SOAR简介

SOAR(Security Orchestration, Automation and Response)安全编排与自动化响应,是Gartner2017年提出的新概念。绿盟科技经过2年自研,于2019年发布了安全编排与自动化响应解决方案。通过可视化编排技术,定了端到端的响应处置流程。

绿盟科技SOAR解决方案,采用自研的SecDevOps框架,工程人员可以基于标准插件化模板实现不同设备厂商的数据源接入,快速引流数据到ISOP平台。同时还可以基于标准插件化模板快速集成不同设备厂商的设备管控能力, 并完成管控设备插件的启用,实现管控设备的开箱即用能力。

四、可视化编排

绿盟科技SOAR以案例为逻辑管理单元,采用端到端的形式进行可视化编排,通过编排组合SOAR工具箱中的安全日志,安全事件,规则模块,提取模块,逻辑处理模块,工单模块,预警模块,NDR模块等,实现安全能力的集成与编排。

该可视化编排页面采用拖拽的方式进行节点的编排,每一个节点都支持编辑,删除操作(起点和终点除外)。其中,数据源标签下的节点,主要用于确定自动化处置的事件来源;分析标签下的节点,在数据源的基础上,进一步明确事件来源;研判响应标签下节点,主要用于自动化处置,例如:获取IP字段的情报的信息,根据情报结果进行判定是否需要进行封堵或者创建工单,最后,当处置完成后,进行告警通知;逻辑判定标签下的节点,可以根据已有的字段信息,进行逻辑运算,决定是否进行下一步处置动作。

五、SOAR在安全事件运维中的作用

攻击无法避免,在攻守时间线上,攻击者处于先手位置,攻击者发起了攻击,防护者才有可能发现异常,并进行防守,且防守存在一定的滞后。特别是人工防守,涉及到防守方案制定,多人员协作,多设备联动,审批,工作流等,MTTR(平均响应时间)花费时间较长。

根据PPDR模型:Pt>Dt+Rt时,系统才是安全的。Pt:防护时间,入侵者攻击安全目标花费时间;Dt:入侵开始到系统检测到入侵行为花费时间;Rt:发现入侵到响应,并调整系统到正常状态时间。Pt,Dt变化很小,那么,减少Rt时间,就可以快速的达成保证系统安全运行的目的,而SOAR正好为此应运为生。

SOAR有助于将复杂的事件响应过程转换为一致的、可重复的、可度量的工作流。SOAR通过联动多个系统和平台来调整不同的安全工具和技术,将人和技术编入业务流程中,创建手动和自动协同操作的工作流步骤,以简化安全流程,加快事件响应,减少MTTR时间。

SOAR能够弥补传统SIEM/SOC运维中的短板:

  1. 事多人少

大量的运维事件/告警,有限的运维人员,虽然在引擎层面可以归并一部分事件/告警,但是当面对大量不同的事件/告警时,人工无法及时处置,导致系统暴露在危险中,同时,也给运维人员增加了较大的工作压力,由此导致更加容易犯错。

  1. 响应时间较长

从确定响应方案到执行,除了团队人员内部协同外,还需要EDR/NDR设备的参与。人工去执行封堵等操作,可能需要在不同的系统和工具间进行切换,涉及到审批时,也不及时,无法在短时间内阻断破坏的进一步传播。

  1. 知识积累

在进行运维事件响应处置的时候,针对具体的事件,选择其对应的处置方式,而这些需要对运维人员有较高的要求,必须拥有丰富的运维处置经验。而这些处置经验,有一些比较固定的流程在里面,可以固化下来。案例库就是SOAR的一个主要功能,其固化了安全专家的经验,运维响应可以借鉴案例库中的响应流程对运维事件继续处置。

六、安全运维的流程

事件(Incident)响应与管理,是SIEM/SOC平台中的一个关键能力,在绿盟智能安全运营平台ISOP中,运维的入口为【运维响应】->【运维工作台】->【事件运维】。

安全事件响应流程,依据不同的威胁程度、事件类型,响应流程不同;不同公司、部门对于安全事件的响应流程也不同,这里列举一种通用的响应流程为:

精简化的流程为:

  1. 信息收集

当一个运维事件/告警产生的时候,安全员要做的工作,就是收集事件/告警的相关信息(IP信息,端口信息,涉及资产信息,攻击手段,流量上下文,载荷,外联情况,ATT&CK库,情报信息等)

  1. 初步判断

根据收集到的信息,和系统实际情况进行比对,确认该事件/告警是否为误报,如果确认误报,需要调整规则或策略,使之不再产生,减少运维人员在此类事情上投入的时间。当排除误报后,需要对攻击结果进行判定。在判断的时候,可以保留取证信息,根据事故的严重程度决定是否需要司法机关接入。

  1. 研判

在经过初判之后,研判人员根据信息收集的结果,进一步判定:

a.    是否攻击成功,

b.    事件等级(特别重大,重大,较大,一般)是否需要重新判定,

c.     影响范围确认,

d.    攻击强度及持续性定级确认,

e.    响应方案的制定。

  1. 处置

如果攻击成功,结合阻断/隔离-消除-加固策略,根据实际情况第一时间采取封堵,隔离等有效措施防止威胁在内网中横向传播,将损害和影响降到最小范围,并保留现场,报告本单位信息技术安全分管责任人和主要负责人。如果是外部攻击,根据类型及强度决定是否报警。如果是内部攻击,就定位到IP(责任人),收集证据,评估影响,和当事人约谈,根据公司的安全制度进行相应的处置。合适的遏制手段可以为应急响应团队争取了对事故根本原因调查和判断的时间;对于需要线下进行处置的工作,可以使用工单系统进行线下处置。

注:线上指的是可以直接登录系统进行执行动作,线下指的是需要人工参与去手工确认。

  1. 清除、加固

在阻止威胁进一步传播之后,下来就进入原因分析阶段,我们将在这个阶段收集更多的数据,从而了解攻击发生所使用的ATT&CK,确定事故的源头是内部还是外部,以及攻击者如何获得对资产的访问权限。在调查清除运维事件(incident)的原因后,紧接着需要消除威胁,消除方式根据事件类型而定,可以参考权威机构发布的修复策略和清除工具。消除之后,将进入加固阶段,除了修复入侵的薄弱点之外,还需要查漏补缺,对系统进行巡检,以确保此类事故不会再次发生。具体的操作有:关闭不必要的服务,增加IP/网段访问控制规则,限制请求频率,系统升级,安装最新漏洞补丁等。在执行完加固措施后,还需要依据生产环境上线运行流程规范,对所实施的措施进行验证和评估,防止引入新的脆弱性和其他安全问题。

  1. 总结经验

历史总是惊人的相似,受到的威胁可能还会再次遭遇,对于运维事件的响应流程,我们应该及时分析,总结整个处置过程, 不断优化,并且固化到流程中,以达到高效运维的目的。同时,安全运维人员需要多关注安全威胁动态,及时更新技术知识,不断提升自己的安全能力水平。

高效运维,已经成为当前各行业和企业IT部门必须要解决的问题。高效运维是人,流程,设备之间的达到一个可跟踪,高协调,可量化,流程标准化的一个状态。短时间内,一个企业的运维人员和安全设备的变动情况很小,那么,最有可能优化的地方就是流程了。SOAR 具有安全编排和自动化响应能力,可以把一致的、可重复的动作预先通过“剧本”的方式编排好,就像音乐会演奏的交响乐剧本一样,当安全事件发生时,可以按照预先定义好的流程顺序执行,自动化完成整个响应过程。

七、如何提高运维效率

那么如何用SOAR来提高运维效率:

1. 掌握保护、检测、响应、恢复模型,安全编排和自动化响应适用于该模型的各个环节,并不只针对响应。但由于现阶段响应环节自动化比较薄弱,且SIEM/SOC系统已经包含了检测能力,所以,目前SOAR主要侧重于响应,恢复环节。在编排的时候,需要对处理的安全事件非常了解,正确编排取证、判断的字段等关键信息,以及联动设备做出何种反应,如何进行恢复。

2. 积累经验库,并不是所有的安全事件都可以用SOAR来进行自动化处置,SOAR也并不是要取代安全人员,SOAR是一种自动化手段,是用来提高安全人员的处理能力。对于已处理的威胁事件,响应的步骤应该固化到经验库中,增加经验积累。针对可以自动化的步骤,形成剧本,使用自动化的手段来执行,以提升处置的效率,减少人工参与带来的风险。

八、SOAR演进方向设想

  1. 细化编排能力
  • 针对情报黑名单,可以引入白名单的功能;
  • 针对固定的封堵时间,可以引入阶梯封堵策略;
  • 针对告警信息不足,可以主动去丰富信息等;
  • 针对全局统一策略,可以针对不同分组设置不同的策略;
  • 针对固定的阈值,可以根据条件设置不同的阈值等。
  • 主要思想就是满足不同场景化的编排能力。
  1. 打通设备/平台壁垒,扩充编排能力
  • 和终端设备联动,如UES ,扩充的能力有进程隔离,进程终止,文件隔离,文件恢复,注册表清理,启动项管理,主机端口封禁,主机服务禁用等。
  • 和网关设备联动,如WAF, NF, ADS, IPS, IDS,扩充的能力有:封堵,隔离,牵引等。
  • 和检测类系统联动,如沙箱检测,支持的能力有:确认动态确定文件是否恶意。
  • 和工作系统联动:对工作流进行跟踪、处置,效率评估。
  • 和情报系统联动:支持对IP, 域名,文件等情报检测。
  • 通过不断的和其他系统进行联合,逐步扩充SOAR的安全编排、处置能力。
  1. 融入智能基因

目前市场上的安全编排都是事先定义的、流程确定的编排,当SIEM/SOC检测出新型威胁,而没有对应的案例与之匹配时,系统可能短时间内暴露在失陷的封风险中。那么,基于机器学习,基于已经成功处置的大量运维经验,以及案例模板库,AI是否可以”新建”一套处置流程,并进行自动化响应处置?答案是肯定的,且”新建”的编排流程应该支持修改,用户可以自定义进行调整。

参考资料:

https://www.gartner.com/en/documents/3882466

https://www.gartner.com/doc/reprints?id=1-1YE69EYM&ct=200218&st=sb

https://nti.nsfocus.com/pdf/The_situation_analysis_of_network_security_for_2020_07.pdf

Spread the word. Share this post!

Meet The Author

Leave Comment