如何搭建日志智能分析平台,将数据集中整合、加工处理并应用和展现在运维管理中,进而提升运维管理能力、提高运维服务质量和效率,是本文探索研究的重点。
随着银行业各企业在人行、银监的监管要求下,各银行经过多年来对信息化的安全建设不断加大投入和完善建设。企业的安全防护设备也日益增多,各类安全设备每天产生大量的告警日志成千上万条。所存储的日志量每天可以按10G为单位计算。庞大的运维告警日志,难以有效的进行管理和分析。对于当前的安全运营管理人员和团队来说已经呈现出疲劳态势。银行数据中心,IT运维领域涉及的运维数据涵盖应用日志、系统日志、性能数据、网络数据、流量管理数据、资产配置数据、数据库日志、漏洞管理数据、安全态势等。上述信息整体上数据量大,格式差异大且分散在不同的服务器中,如何搭建日志智能分析平台,将数据集中整合、加工处理并应用和展现在运维管理中,进而提升运维管理能力、提高运维服务质量和效率,是本文探索研究的重点。
日志智能分析平台的设计实现
日志分析平台逻辑架构上分为资源层、数据采集管控层、大数据层、服务层、业务层、数据呈现层(如图1所示)。资源层主要包括:各采集对象的网络设备、安全设备、应用系统、主机系统、数据库、服务器等。数据采集管控层主要负责多渠道获取数据,并支持数据预处理。将采集来的数据进行分区分块进行存储。大数据层分为:数据存储和数据分析模块,数据存储模块主要负责将采集的数据以索引方式存储,同时对常用的查询分析的结果进行缓存。数据分析包括:数据分析模块、数据处理模块、平台管理模块等。数据分析模块支持对数据进一步的加工处理,并支持结构和非结构化的数据处理、关联分析查询。平台管理模块主要涵盖用户认证、数据权限控制等,保障数据访问的安全可控;服务层可以提供对各类的应用服务,如资产管理、情报处理、工单管理、告警处理、响应管理、任务管理、设备管理等。业务层包括所能够提供的业务功能模块。数据呈现层主要支持数据以图形、表格、报表等不同的方式进行组合、钻取展现,同时支持以标准接口的形式供其他系统调用。
图1.日志智能分析平台逻辑架构图
由于运维数据本身量大、分布分散、格式多样,并且存在一些实时性应用场景,这就要求平台在数据采集方面满足高性能和灵活扩展的要求。另外由于需要从银行关键业务系统进行数据采集,采集端的稳定性也是一个重要的非功能性需求。基于以上要求,平台采用大数据分析平台作为底层处理分析架构。Hadoop框架上的程序可以在很短的时间内完成对海量数据的处理。Hadoop使用了一种类似于 Google MapReduce的编程模型。用户提交的计算任务首先会被初始化成一个Job对象 ,Job继而被分解为两个计算阶段:Map阶段和 Reduce阶段。在开始调度作业之前,MapReduce会将原始输入数据划分成若干个数据分片 。执行Map计算任务的节点以<key-value>形式读取一个数据分片作为输入,处理结束后把<key-value>形式的计算结果写入磁盘 。MapReduce框架会 对所有Mapper输出的中间结果按照key值进行归类,然后将<key,(list of values)形式的数据注入进Reduce节点 ,Reducer会对每个value集合进行处理,最终把计算结果写入磁盘。一方面,满足了银行业对数据长期存储的监管要求。另一方面,以达到对大数据处理分析的要求。
日志智能分析技术在IT运维管理中的应用
1.告警事件定位分析。日志智能分析平台对安全设备、网络设备、应用系统、主机系统等进行日志采集和索引分析后。进行对日志进行智能的归并和关联处理分析,提炼出当前网络的攻击事件。使得一线及二线运维人员可以一次性对多台安全设备、网络设备、应用系统、主机系统上的日志进行事件查询分析。使得安全攻击行为和事件查询变得简单高效,这也是目前主流日志分析平台的主要使用场景。
为了进一步提升告警分析定位能力,我们对运维用户处理各类告警的过程进行分两阶段进行调查和归纳分析(如图2所示)当一个主要告警发生时,告警处理过程大致可分为预警和追溯阶段,如下。
图2告警分析定位分析
通过日志智能分析的数据存储层,可以对多有与该事件相关的数据进行记录,并重新构建攻击的逐步过程,安全分析人员可以清晰的了解和查询,攻击时间和位置,提权以及安装特征等,安全分析师可以快速地构建恶意攻击的概要信息,并通过链条式分析将注入路径衔接起来,识别出第一感染源头和其他被感染者,或下一步预判,使安全团队提前发现威胁,能够快速不久损害,将损失降到最低。
基于上述过程,日志智能分析平台实现了辅助告警分析功能,具体涵盖四类视图:平台根据已采集的历史告警信息和历史产生事件信息;关联实现了历史同类告警的解决方案清单视图;通过采集的攻击日志数据,实现了告警所在各安全设备近期告警攻击行为的趋势图;通过采集应用日志和系统日志,实现了告警时间附件的异常日志视图;最后通过结合采集的配置信息和告警信息,实现了与本应用有所关联应用告警情况的关联告警视图。平台展现层通过对上述四个视图的场景化串联,辅助运维人员实现了告警的快速分析定位,提升了事件处理效率。
2.多元异构的日志管理与审计。根据银行内部安全控制要求,运维人员只能通过审计系统(堡垒机)间接访问生产服务器,其在生产环境的操作行为和结果以文件形式保存,最终采集到日志智能分析平台中。基于上述操作行为数据,结合一些配置数据,平台实现了多维度的操作行为分析和审计。
(1)实现了机构用户维度的操作行为分析。使得管理层用户了解各部门用户的运维习惯和压了(如是9:00是应用运维部门的访问高峰,主要是运维人员进行巡检及处理昨日非紧急问题)。
(2)实现了应用维度的操作行为分析。通过对应用的实际访问账号与实际管理权限的对比,直观展示不合规访问情况。
(3)实现了账号维度的操作行为分析。通过对比实际管理要求,找到非授权用户使用root类高权限账号进行生产操作的情况。
(4)实现了命令维度的操作行为分析。例如rm –rf命令Top10用户统计等,对高危险命令的使用合理性进行审查和通报,有效降低了用户操作风险。
3.异常情报与威胁情报分析。日志智能分析平台通过对知识采集、处理,分析和最终输出威胁情报。同时基于外部开源的和第三方情报数据,增强威胁情报的准确度和时效性。
利用大数据分析平台将本地历史数据,网络资产数据与情报数据按照多个维度进行关联分析,即可快速感知威胁,通过平台安全规则的筛选和过滤最终形成漏斗效应,保证威胁告警的更加的精准和有效。为运维管理人员提供异常的情报分析和威胁情报的预警。
4.漏洞管理全生命周期管理。日志智能分析管理平台可以提供企业内网环境的资产感知和稽查功能,通过扫描指定的 IP 地址范围,嗅探哪些设备新增,通过嗅探设备端口范围,了解启动哪些服务。通过单一通用端口探测并转向多协议探测,发现更多网络服务类型和相关数据,经过周期性对比和核实,构建资产安全脆弱性分析系统,实现根据异构网络资产元数据和服务数据的图谱构建和自动化分析,并提供可视化呈现和安全评估报告。对企业在系统脆弱性的安全管理提供全生命周期的管理。帮助运维人员提高对内部系统的安全管理工作。
图3.漏洞管理全生命周期
5.实现态势感知分析。通过对入侵,异常流量,僵木蠕,系统安全,网站安全态势进行多维度日志采集和分析,形成各种类型的安全态势分析趋势。可以针对整体范围或某一特定时间与环境,基于这样的条件进行因素理解与分析,最终形成历史的整体态势以及对未来短期的预测。能够很好的洞察银行内部整体安全状态,并通过量化的评判指标直观的理解当前态势情况。
日志智能分析平台从海量数据中分析统计出网络中存在的风险,通过趋势图,占比图,滚动屏等方式清晰展示网络安全态势。协助安全分析人员快速聚焦全网高风险点。
图4.安全态势分析展现图
小结
基于大数据分析架构的日志智能分析平台,相对于传统的日志智能分析技术,技术复杂度和学习处理能力更为先进。能够提供更为快速的处理分析和展现,适用于当下大数据的存储与分析应用,能够帮助银行业在关键业务系统及内部系统实现全面的智能关联分析,提高运维人员在IT运维管理过程中的工作效率及安全态势的感知能力。