某运营商出现4G防火墙CPU异常增高,导致部分用户用iphone访问apple网站异常缓慢,疑似DDOS攻击。针对可疑某一业务IP,运用BSA大数据安全分析平台的IP业务可视化溯源功能,展开分析下钻,最终成功定位溯源,本文展示了这个DDOS实战过程,并提供一些思路。
一. 业务分析排障过程
1.1 高速鹰眼:IP业务可视化溯源
威胁可视化溯源的一个功能为业务流量分析溯源,可以分析网站、DNS、IP业务。本次采用IP业务溯源功能,主要是针对某一业务IP或者IP段、业务端口和协议,及其对应的分析场景进行分析,包括IP业务端口流量流速、IP业务来源地区流量、IP业务来源地图、IP业务流向地图、在线并发IP、访问持续时间、帕累托图、协议流量溯源和路由器流量溯源。
IP业务溯源任务模式也分为三种模式内存高速挖掘模式,在线挖掘模式和离线挖掘模式。主要是当前一个小时8-12亿数据,需要高速的分析和处理这些DDOS流量。
- 内存高速挖掘 :将挖掘数据存放于内存中,可快速调用,用于反复使用的渐进式查询,优于数据量巨大,非常消耗群集内存,所以Cache模式适用于挖掘小数据量1天内数据,并且挖掘时建议先由过滤器过滤数据。
- 在线挖掘模式 :输入挖掘条件,自动将挖掘条件生成过滤器,直接查询原始Flow表,方便快速查看某个分析场景,无需等待创建Cache,适用于单次且数据范围小于一天的查询。
- 离线挖掘模式:分析较长时间(大于1天),预先查询需要数据,再进行数据压缩(合并小文件),新建物理表存于硬盘,后续可以重复且快速使用。由于数据量大,一般需要限定条件,如查询单个IP等等。
1.2 第一步 分析某业务IP上行流量情况
1.2.1 某IP的原始上行数据
在业务分析溯源里的“IP业务”针对业务某IP挖掘出相应时间段 3月24号凌晨 1:00 -2:00 数据的数据。这是上行流量分析。
挖掘条件图
挖掘出的流量趋势图和统计表
以上是某IP相应时间段 3月24号凌晨 1:00 -2:00 的数据,由图中我们能看出流量趋势呈现较小的变化流量算比较平稳的。峰值大概为2.3M/700B,总值为3G/1M,流次数为1013。原始Flow表如上图所示,分别统计了源IP地址、目的IP地址、源端口、目的端口、流量、数据包、协议等。
1.2.2 IP业务端口流量流速
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“IP业务端口流量流速”分析具体网站端口的流量流速,一个网站有多个端口时候,可以有效分析流量最大或者流量特殊的端口情况。
IP业务端口流量流速
以上是某IP相应时间段 3月24号凌晨 1:00 -2:00 的IP业务端口流量流速数据,由图中我们能看出某IP开放的443和769端口,而且这两个时间段就这么两个端口开放。流量详情统计表如上图所示,分别统计了IP地址,协议和协议对应的端口流量的总值和峰值等。
1.2.3 IP TCPFlag流量流速
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“IP TCPFlag流量流速”分析具体网站的TCPFlags常用字段的流量的总值,峰值和流次数等等,还能分析TCPFlag各个常用字段的流量占比情况。
TCPFlag流量流速图
以上是某IP相应时间段 3月24号凌晨 1:00 -2:00IP的TCPFlag流量流速图,由图中我们能看出ACK的流量最大峰值为2M/500B,总值为1.6G/519K,其次峰值总值最大的为PSH-ACK流量,所以响应和Data传数据的可能性较多。流量详情统计表如上图所示,分别统计了TCPFlags常用字段的流量的总值和峰值等。
1.2.4 在线并发IP
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“在线并发”通过事件序列分析模式,分析在线并发IP,直观显示30秒内消重后IP数量,方便用户定位用户突发造成的问题。
在线并发IP
以上是某IP相应时间段 ,3月24号凌晨 1:00 -2:00 的在线并发IP的趋势图,由图中我们能看出最大峰值为19个IP同时在线访问该站点,总值为1001,从图上来看还是算比较正常的访问站点。
1.3 第二步 分析某业务IP下行流量情况
1.3.1 某IP的原始下行数据
在业务分析溯源里的“IP业务”针对业务某IP挖掘出相应时间段 3月24号凌晨 1:00 -2:00 数据的数据。这是下行流量分析。
挖掘出的流量趋势图和统计表
以上是某IP相应时间段 ,3月24号凌晨 1:00 -2:00 的数据,由图中我们能看出时间段 1:30 -1:35 流量趋势呈现出突增现状。峰值大概为626.4M/1.1M,总值为65.1G/102.7M,流次数为1427。原始Flow表如上图所示,分别统计了源IP地址、目的IP地址、源端口、目的端口、流量、数据包、协议等。
1.3.2 IP TCPFlag流量流速
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“IP TCPFlag流量流速”分析具体网站的TCPFlags常用字段的流量的总值、峰值和流次数等等。还能分析TCPflag各个常用字段的流量占比情况。
TcpFlag流量流速图
以上是某IP相应时间段, 3月24号凌晨 1:00 -2:00IP的TCPFlay流量流速图,由图中我们能看出FIN-ACK的流量最大峰值为461.5M/779.5K,总值为51.4G/86.9M,其次峰值总值最大的为RST流量峰值为8.7G/14.7M,总值为176.6M/298.3K,所以可能关闭了连接又连接重置。流量详情统计表如上图所示,分别统计了TCPFlags常用字段的流量的总值和峰值等。
1.3.3 在线并发IP
在这种数据突增的情况下,我们可以来分析访问IP是不是增多了很多。在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“在线并发”通过事件序列分析模式,分析在线并发IP,直观显示30秒内消重后IP数量,方便用户定位用户突发造成的问题。
在线并发IP
以上是某IP相应时间段, 3月24号凌晨 1:00 -2:00 的在线并发IP的趋势图,由图中我们能看出最大峰值为21个IP同时在线访问该站点,总值为1178,从图上来看还是算比较正常的访问站点,没有剧增很明显。
1.3.4 初步结论–下行流量导致流量突增
得出初步结论,在1点30分-35分,从apple网站的返回流量突然从正常的2Mbps突增到600M bps,TCP-Flag的FIN-ACK流量峰值461.5M bps,RST流量峰值176.6M bps。
流量详情 |
总值(Bytes/Packets) | 峰值(bps/pps) | 均值(bps/pps) |
流次数 |
开始时间 | 结束时间 |
FIN-ACK流量 | 51.4G/86.9M | 461.5M/779.5K | 14.3M/24.2K | 302 | 2017-03-24 01:00:07 | 2017-03-24 01:59:59 |
RST流量 | 8.7G/14.7M | 176.6M/298.3K | 2.6M/4.4K | 24 | 2017-03-24 01:04:30 |
2017-03-24 01:59:59 |
TCP-Flag表
1.4 第三步 采用时间过滤器下钻到故障5分钟
1.4.1 采用可视化拖拽的方式下钻故障时间片
用鼠标拖拽流量突增时间端,会自动建立一个时间过滤器。
拖拽生成时间过滤器
1.4.2 分析流量详情
分析流量突增,可以看出更清晰的流量分布。
突增流量详情表
1.4.3 分析TCPFlag流量详情
确认TCP-Flag流量分布,进一步确认fin-ack和rst包是最大的数量。
TCP-Flag突增流量详情表
1.4.4 帕累托特图分析锁定目标,并过滤可疑IP
在这种数据突增的情况下,我们可以快捷拖拉生成时间过滤器对突增的情况进行更加精准的时间段分析。
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“帕累托图”通过采用帕累托图分析,可以支撑严谨定义的帕累托图分析方法,分析师可以定义flow的各个要素进行分析。
帕累托图
以上是某IP相应时间段 ,3月24号凌晨 1:30:4 -1:33:3 的帕累托图,由图中我们能看出源IP和目的IP占比Top1为99.68%,同样统计表的数据也显示该源目IP的总值为最高值7.5G/101.5M,峰值也是最高值为132.5M/1.8M,流次数什么的都跟其他访问差距很大,其他的访问量都很小。
1.4.5 定位目的IP分析
刚刚我们看到异常的目的IP,现在我们通过“IP TCPFlay流量流速”对该目的IP进行定位分析,所以我们添加该目的IP的过滤器。
添加过滤器
在业务分析溯源里的“IP业务”对原始数据进行分析场景分析,点击“开始查询”分析过滤器的目的IP流量的总值,峰值和流次数等等。
流量流速图
流量流速详情统计表
以上是某IP相应时间段, 3月24号凌晨 1:30:4 -1:33:3时间段的流量流速图,由图中我们能看出流量最大峰值为624.7M/1.1M,总值为60.1G/101.5M,其次从流量详情统计表中我们还能看到,该源IP到目的IP全是从443端口到9069端口,而且还有些包流量较大,基本上能锁定这对源目IP可能是业务的问题。
二. 该业务故障排障结论
1.某运营商防火墙异常,原因是内网某个IP,访问苹果某IP出现异常问题导致。
2.通过某时间段 1:30 -1:35上下行流量对比分析。可以看出,故障时候内网某个IP,访问苹果某IP的上行流量峰值为21k,但是下行流量高达624Mbps
上行流量图
下行流量图
3.发现该源IP到目的IP在某一时间段很集中,还全是从apple源443端口到目的9069端口,而且还有些包DDOS流量较大,基本上能锁定这对源目IP可能是业务的问题。
4.在TCPFlag流量流速中,上行报文中没有发现syn。下行报文发现FIN-ACK流量峰值461.5M bps,RST流量峰值176.6M bps。
5.从绿盟威胁情报库里面看,这2个IP都是安全的,没有发生过历史DDOS安全事件。
下一步的工作,进一步分析防火墙上某IP,定位端口9069是什么设备,确定设备种类。(运营商有上网日志留存系统。)
点击查看更多DDOS内容