大数据战略作为‘十三五’期间的十四大国家战略之一,是中国经济发展新的驱动力。大数据通过提供全样本分析手段,使得很多不可能变成可能,在各个行业领域都已经产生了重要影响,大数据的魅力无处不在。
今天的文章,我就从大数据的发展历史、特点、现状和典型案例等角度,对大数据技术进行一下综合介绍。
(1)大数据的发展历程
随着计算机和网络的发展,信息不断“爆炸”:
- 1970s: 超大规模数据库 (VLDB)【GB=10^9字节】
- 21世纪初:海量数据(massive data)【TB=10^12字节】
- 2008年:Big data 【PB=10^15字节】
- 现在实际的数据量已经达到:ZB=10^3EB=10^6PB=10^21字节
- 一个新单位:1YB=10^3ZB=10^24字节
2008年9月4日,《自然》(Nature)刊登了一个名为“Big Data”的专辑。2011年5月,美国著名咨询公司麦肯锡(McKinsey)发布《大数据:创新、竞争和生产力的下一个前沿》的报告,首次提出了“大数据”概念,认为数据已经成为经济社会发展的重要推动力。大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。
2013年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Research and Development Initiative),有人将其比之为克林顿政府当年提出的“信息高速公路”计划 。该计划涉及美国国家科学基金会、卫生研究院、能源部、国防部等6个联邦政府部门,投资超两亿美元,研发收集、组织和分析大数据的工具及技术。2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震一度搁置的政府ICT战略研究。英国政府也宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。
2012年3月,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。2015年8月31日,国务院正式印发《促进大数据发展行动纲要》。
国内外传统IT巨头(IBM、微软、惠普、Oracle,联想、浪潮等),通过“硬件+软件+数据”整合平台,向用户提供大数据完备的基础设施和服务,实现“处理-存储-网络设备-软件-应用”,即所谓“大数据一体机”。在大数据时代,这些厂商在原有结构化数据处理的同时,开始加大在可扩展计算、内存计算、库内分析、实时流处理和非结构化数据处理等方面的投入,通过并购大数据分析企业,迅速增强大数据分析实力和扩展市场份额。
国内外互联网巨头(亚马逊、Google、Facebook、阿里巴巴、百度、腾讯等),这些互联网公司基于开源大数据框架(在大数据时代,催生了开源的大数据分布式处理软件框架Hadoop:包括分布式文件系统HDFS,并行编程框架Map-Reduce,数据仓库工具Hive和大数据分析平台Pig等)进行了自身应用平台的定制和开发,基于自身应用平台、庞大的用户群、海量用户信息以及互联网处理平台,提供精确营销、个性化推介等商务活动,并开始对外提供大数据平台服务。
(3)大数据的特点:四个V
Volume(Amount of Data):大容量(主要体现数据存储量大和计算量大)。
Velocity(Speed of Data in & out ):快速率(主要指数据更新、增长速度快,数据存储、传输、处理速度快)。
Variety(Range of Data Types & Sources):多样性(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)。
Value(Usefulness of Data):高价值(大海捞针,“在大数据困难面前,不被利用就是成本”)。
(4)大数据存储、检索与挖掘分析的关键技术
大数据的存储、检索与挖掘分析,目前已经形成了完整和成熟的开源和商业生态链。包括关系型数据库, 非关系型数据库,NoSQL, 流计算,SQL on Hadoop, OLAP on Hadoop, OLTP on Hadoop,Cache 缓存,In-Memory DB, In-Memory Data Grid等等 。利用自然语言处理、信息检索、数据挖掘、机器学习等技术,可以从大数据中获得有价值的信息和知识。
(5)大数据的典型案例
互联网大数据
交通大数据
社交大数据
生物大数据
(6)云计算和大数据时代的来临
云计算在中国已经开始普及式、爆发式增长
大数据时代,云计算及大数据已进行了全面融合。云计算侧重资源管理,而大数据侧重业务应用。
云计算资源池化的管理模式是大数据应用的前提。云计算提供的存储和计算资源池可动态支撑大数据分析业务不断变化的需求。
本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/346283.html
如有侵犯您的合法权益请发邮件951076433@qq.com联系删除