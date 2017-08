网络流量分析,广泛运用于流量监控、网络安全检测、用户行为分析、计费管理或其他网络活动中。说起网络流量分析工具,很多人会想到Tcpdump和Wireshark。Tcpdump是很好用的抓包工具,Wireshark用户界面也十分友好,但是面对大规模网络环境,它们都显得很无力。

那么,大规模网络环境下,网络流量分析问题怎么破?

我们可以借助CERT NetSA开发的工具和Spark来轻松实现较大规模网络分析。

CERT NetSA Security Suite是由美国卡内基梅隆大学的网络应急响应组(CERT)开发的一套网络流量分析工具套件,用于分析大规模网络流量。我们主要讨论的是套件中的YAF和super_mediator。

SiLK工具套件支持网络流数据的高效收集、存储和分析,使网络安全分析人员能够快速查询大型历史流量集。SiLK非常适用于分析大型分布式企业的网络流量,以及中型ISP的骨干网络或边界流量。SiLK工具分为两种类型:包装系统和分析套件。包装系统中的rwflowpack,用来收集IPFIX、NetFlow v9或NetFlow v5等的流量,并将数据转换为一种节约存储空间的格式,然后记录到特定的SiLK文件中。分析套件可以读取SiLK格式文件,并执行各种查询、统计和过滤操作。

YAF工具可以处理tcpdump产出的pcap格式文件,将其打包成yaf格式文件,也可以实时捕获一个网卡的流量,将其转化为双向流,然后输出给IPFIX收集程序或基于IPFIX格式的文件。YAF的输出可以直接用SiLK的分析套件来进行分析。YAF还有深度包解析的插件,支持主流的应用层协议。

super_mediator是一个中间件,用于将YAF的输出转换为csv和json格式文件,或者存储到mysql中。

以下介绍ubuntu环境下,以服务的方式安装配置相关工具,搭建一个流量采集节点。

NetSA的工具依赖glib2-dev和libpcap,直接apt-get安装:

libfixbuf是我们依赖的,按照以下流程安装:

YAF不需要修改过多繁杂的配置文件,直接从官方下载最新版的YAF码源,按照如下流程编译安装,注意编译配置时要添加applabel 和plugins配置项:

然后新建日志文件路径,并将YAF安装目录下可执行文件以及配置文件拷贝至系统目录下,并修改可执行文件权限:

修改YAF配置文件如下:

然后我们就可以以服务的方式启动YAF了。

同样从官网下载后编译安装:

修改super_mediator的默认配置文件:

以后台运行方式启动super_mediator,启动后super_mediator会监听18000端口:

使用ifconfig查看本地网卡信息,确定要抓取的网卡。

启动YAF,实时抓取网卡em1流量,并通过18001端口传输到rwflowpack,让SiLK输出处理后的流量文件。每60秒传输一次,并加上DPI解析插件,启动命令如下:

接下来将YAF抓到的流量包通过18000端口传输给super_mediator,然后super_mediator会将流量包数据转换为本地JSON文件,启动命令如下:

Super_mediator输出的json示例如下图:

上文已经提到,super_mediate可以将YAF的输出转换为本地的json文件。我们可以使用flume对super_mediator输出的json文件进行监控,并将文件变化实时传输到HDFS上,整体流程如下图。

首先下载flume到本地,然后在flume文件路径的下conf目录下添加一个配置文件,这里将这个文件命名为flume_flow.conf,具体内容如下:

#example.conf: A single-node Flume configuration

# Name the components on this agent

a1.sources = r1

a1.sinks = hdfs-sink

a1.channels = c3

# Describe/configure the source

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F /data/flow/flow.json

a1.sources.r1.shell = /bin/bash -c

a1.sources.r1.restart = true

a1.sources.r1.restartThrottle=1000

# Use a channel which buffers events in memory

a1.channels.c3.type = file

a1.channels.c3.checkpointDir = ~/.flume/checkpoint/c3

a1.channels.c3.dataDirs = ~/.flume/data/c3

a1.sinks.hdfs-sink.type = hdfs

a1.sinks.hdfs-sink.channel = c3

a1.sinks.hdfs-sink.hdfs.path = hdfs://192.168.*.*:9000/flume/%y-%m-%d/

a1.sinks.hdfs-sink.hdfs.useLocalTimeStamp = true

a1.sinks.hdfs-sink.hdfs.filePrefix = flow

a1.sinks.hdfs-sink.hdfs.round = true

a1.sinks.hdfs-sink.hdfs.roundValue = 10

a1.sinks.hdfs-sink.hdfs.roundUnit = minute

a1.sinks.hdfs-sink.hdfs.writeFormat = Text

a1.sinks.hdfs-sink.hdfs.rollSize = 0

a1.sinks.hdfs-sink.hdfs.rollInterval = 60

a1.sinks.hdfs-sink.hdfs.rollCount = 0

a1.sinks.hdfs-sink.hdfs.batchSize = 10

a1.sinks.hdfs-sink.hdfs.fileSuffix = .json

a1.sinks.hdfs-sink.hdfs.fileType = DataStream