漫谈大数据（上）

阅读： 2,857

随着企业规模的增大和安全设备的增加，信息安全分析的数据量成指数级增长。信息安全分析引入大数据的显得越来越重要，数据源的丰富、数据种类多，数据分析维度广，同时，数据生成的速度更快，对信息安全分析应答能力要求也相应增长。

漫谈大数据（一）——安全分析技术的发展

传统信息安全分析主要基于流量和日志两大类数据，并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等；基于日志的安全分析应用主要包括安全审计、主机入侵检测等。

将大数据分析技术引入到信息安全分析中，就是将分散的安全数据整合起来，通过高效的采集、存储、检索和分析，利用多阶段、多层面的关联分析以及异常行为分类预测模型，有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等，提升安全防御的主动性。

而且，大数据分析涉及的数据更加全面，主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。

大数据具有4V的特点（Volume、Variety、Velocity和Value），可实现大容量、低成本、高效率的安全分析能力，能够满足我们安全数据的处理和分析要求，讲大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件，具有重大的研究意义和价值。

漫谈大数据（二）——大数据技术的春天

安全大数据分析技术的核心思想基于网络异常行为分析，通过对海量数据处理及学习建模，从海量数据中找出异常行为和相关特征；针对于不同安全场景设计针对性的相关分析方法，发挥大数据存储和分析计算能力的优势，从丰富的数据源中进行深度挖掘，进而挖掘出安全问题。安全大数据分析主要包含大数据信息收集、存储、检索和安全智能可视化及分析等多个层面。

（1）安全数据采集、存储和检索：基于大数据采集、存储、检索等技术，可以从根本上提升安全数据分析的效率。采集多种类型的数据，如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式，提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具；针对流量数据可采用流量景象方法，并使用Storm和Spark技术对数据进行存储和分析；针对格式固定的业务数据，可使用HBase、GBase等列式存储机制，通过MapReduce和Hive等分析方法，可以实时的对数据进行检索，大大提升数据处理效率。

（2）安全数据的智能分析：并行存储和NoSQL数据库提升了数据分析和查询的效率，从海量数据中精确地挖掘安全问题还需要智能化的分析工具，主要包括ETL（如预处理）、统计建模工具（如回归分析、时间序列预测、多元统计分析理论）、机器学习工具（如贝叶斯网络、逻辑回归、决策树、随机森利）、社交网络工具（如关联分析、隐马尔可夫模型、条件随机场）等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上，一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析，针对不同场景搭建分析模型，最终实现信息安全的可管可控，展现整体安全态势。

漫谈大数据（三）——Spark技术的异军突起

为了优化和解决分布式Hadoop平台的计算不足和对其算法操作的改进，从2009年开始一种新的下一代计算平台技术Spark在伯克利大学诞生。新一代大数据分布式处理框架,在许多方面都弥补了Hadoop的不足,使得平台计算和批处理时更加高效,并有更低的延迟。

Spark基于Hadoop平台的HDFS分布式文件系统，采用Driver、Worker的分布式主从节点模式，以分布式内存抽象计算的形式提供工作集服务。非常良好的语言编程开发接口，支持多种语言JAVA、Scala、Python等，同时大大简化了代码量，使得原有并行程序代码从上百行压缩至几十行。丰富的技术组件，使得程序开发人员在进行应用实现时更加简单易用。

Spark Streaming

Spark Streaming基于微批量方式的计算和处理，可以用于处理实时的流数据。它使用DStream类型数据，简单来说就是一个弹性分布式数据集（RDD）系列，处理实时数据。

Spark SQL

Spark SQL可以通过JDBC API将Spark数据集提取出去，而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据（如JSON，Parquet以及数据库等）执行ETL数据处理操作，将其转化，然后提供给特定的查询。

Spark MLlib

MLlib是一个可扩展的Spark机器学习库，由通用的学习算法和工具组成，包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。

Spark GraphX

Spark GraphX是一个分布式图处理框架，Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大的方便了分布式图处理的需求。

漫谈大数据（四）——数据的快速流转Kafka

在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转。而传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线实时消息和离线数据文件，日志的客户需求，Kafka就出现了。

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。

漫谈大数据（五）——数据的快速检索Elasticsearch

我们建立一个网站或应用程序，并要添加搜索功能，令我们受打击的是：搜索工作是很难的。我们希望我们的搜索解决方案要快，我们希望有一个零配置和一个完全免费的搜索模式，我们希望能够简单地使用JSON通过HTTP的索引数据，我们希望我们的搜索服务器始终可用，我们希望能够一台开始并扩展到数百，我们要实时搜索，我们要简单的多租户，我们希望建立一个云的解决方案。Elasticsearch旨在解决所有这些问题和更多的问题。

Elasticsearch是一个基于lucence技术的搜索引擎，它为我们提供了一个分布式多用户能力的全文检索引擎，基于良好的RESTful web接口，Elasticsearch可以让我们快速自由的搭配，建立自己的企业级实时信息搜索引擎。

未完待续~

如果您需要了解更多内容，可以
加入QQ群：570982169、486207500
直接询问：010-68438880-8669

作者

留言

撰写回覆或留言