如今大数据平台,大数据分析、大数据应用已经发展得如火如荼。我们的生活,几乎被各种图片,声音,视频,文字等数据包围。你是否有过这样的困惑:什么是大数据?大数据如何改变了我们的生活?网络安全中如何使用大数据?等等。
让我们慢慢揭开大数据的神秘面纱,看看透视人类心意与行为的大数据,具有哪些特点及商业、社会价值。
【什么是大数据?】
最开始接触大数据时,疑惑最多的是:多大,才是大数据?1PB ?1EB?还是多少?
我们当然不会从这里得到答案。因为大数据是全面、完整、系统的数据。他让我们从抽样、局部数据中解救出来,通过对大量数据的全面统计,找到数据底层蕴含的深意,为我们服务。它在生命安全、网络安全、网络营销等各方面崭露头角,并逐渐发挥着越来越大的作用。
【大数据的特点?】
1.不是随机样本,而是全体数据
过去,因为记录、储存和分析数据的工具不够好,我们只能搜集少量数据进行分析。这让我们一度很苦恼。为了让分析变得简单,我们会把数据量缩减到最少。抽样,成了不二选择。
但是,如今云计算、分布式存储等技术早已风靡全球,数据存储和分析变得更加简单。我们可以不再拘泥于少数的样本,而是获取尽可能全体数据进行分析,更快更容易地发现问题。
举例:大数据与乔布斯的癌症治疗
“apple公司的传奇总裁乔布斯,在与癌症斗争的过程中采用了不同的方式,成为世界上一个对自身所有DNA和肿瘤DNA进行排序的人。他得到的不是一个只有一系列标记的样本,而是包括整个基因密码的数据文档。
对于一个普通的癌症患者,医生只能期望她的DNA排列同实验中使用的样本足够相似。但是乔布斯的医生能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药,也就是乔布斯所说的:‘从一片睡莲叶跳到另一片上。’乔布斯开玩笑说:‘我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。’ 虽然乔布斯已经离开了人世,但这种获取所有数据而不是样本的方法还是将他的寿命延长了好几年。”
2.不是精确性,而是混杂性
“只有5%的数据是结构化且能适用于传统数据库的。如果不接受混杂,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗口。”
那么,什么是混杂?
混杂,简单的说,就是随着数据的增加,错误率也会相应增加。
大数据通常用概率说话,而不是板着“确凿无疑”的面孔。如果我们可以一定程度上宽容错误,数据会给我们带来更多的价值。
举例:Hadoop与VISA的13分钟
“Hadoop是与MapReduce系统相对应的开源式分布式系统的基础架构,它非常善于处理大量的数据。通常把大数据变成小模块然后分配给其他机器进行分析,实现了对超大数据的处理。它预设硬件可能会瘫痪,所以在内部建立了数据的副本。典型的数据分析需要经过“萃取、转移和下载”流程。但是Hadoop不拘泥于这样的方式。相反,它假定了数据量巨大使得数据完全无法移动,所以必须在本地进行数据分析。
Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行快很多。比如:把客户分权,然后分别进行不同的营销活动。
信用卡公司VISA使用Hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩减为13分钟。It’s amazing!
因此,当允许少量错误时,Hadoop进行大数据处理是非常实用的。我们也可以根据业务等特点,来选择不同工具,不同方法,处理大数据。”
3.不是因果关系,而是相关关系
“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是让数据自己发声。”
在数据量小的时候,我们经常推理各数据之间的因果关系。然而,随着大数据时代的到来,时刻寻找因果关系变得奢侈,时间有限,我们需要把注意力放到结果上。如果从数据统计中,就得到相关结果。为什么,变得不再重要。
举例:沃尔玛,请把蛋挞与飓风用品摆在一起 2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每个顾客的购物清单、消费额,还包括购物篮中的物品,具体购买时间,甚至购买当天的天气。
沃尔玛公司注意到,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞销量明显增加。
因此,当季节性飓风来临之际,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,方便客户购买,增加销售额。
【大数据如何改变了我们的生活?】
大数据正在默默改变着我们的生活:在亚马逊或当当买书,都会有相关推荐;在淘宝购物,如果是买婴幼儿产品,会自动推荐孕妈妈护肤等系列产品;每天去哪儿,都被各种app监控,为我们推荐最佳出行线路。and the like.
下面咱们用一张表格简单列举下生活中的大数据,看看大数据在如何改变着我们的衣食住行。
【大数据与网络安全】
大数据时代的到来,给传统的网络安全带来了新问题。大数据将安全带入了一个全新、复杂和综合的时代:不安全的那些蛛丝马迹在浩瀚数据的掩护下,正在精准地发起一次又一次的攻击。
如何有效地利用大数据挖掘网络中的不安全因素,让网络更安全?绿盟正在努力。
【绿盟科技大数据安全研究】
从2015年开始,绿盟着手开发BSA产品。利用Kafka、Hadoop、Spark、Elastic Search等技术,搜集网络中的UDP 、TCP 、文件等数据,并进行解析,存储,分析。及时发现网络异常,对威胁进行预警。
此外,BSA还支持内置或外置APP,对BSA接收到的数据进行多角度分析和展示。为客户提供更强大的安全保障。下面,简单列举几个目前BSA已经支持的APP,供大家鉴赏。
在此,附上图,让亲们身临其境一下。
当然,2016年,BSA会接入更多APP,从更多视角发掘潜在的安全威胁。请亲们拭目以待!
我们一直在路上,我们一直在努力。
我们会越走越远,且不会忘记为什么出发。
如果您需要了解更多内容,可以
加入QQ群:486207500
直接询问:010-68438880-8669