大数据是什么意思?
一、大数据是什么意思?
1、大数据又称巨量资料,是海量具有高增长率和多样化特性的有价值的信息资产的集合。它不仅仅包括数字,还包括图片、文本、视频、交互记录等等。大数据无法在可承受时间范围内用常规软件工具进行捕捉、处理和管理。具有大亮、高速、多样、价值这四个特点,主要应用于计算机,它的最小单位是bit。
2、大数据可以说是云计算不断发展下的一个产物,同时也必须依托于云计算的分布式处理、分布式数据库、和云存储、虚拟化技术对海量数据进行分布式处理。
3、大数据中的信息资料大都来源于一些交互平台或者是公司企业、网站。这些信息经过处理后,其中一部分会转变为有规律的信息结构,这样就可以对他们进行分析从而利于企业的市场营销,甚至国家安全。
大数据的4个“V”,或者说特点有四个层面:
第一,数据体量巨大。从TB级别,跃升到PB级别;
第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
第三,处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。
第四,只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。
二、Hadoop大数据框架的发展历程?
Hadoop的主要发展历程:
· 2008年1月,Hadoop成为Apache顶级项目。
· 2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
· 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
· 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。
· 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。
· 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。
· 2010年9月,Hive脱离Hadoop,成为Apache顶级项目。
· 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。
· 2010年-2011年,扩大的Hadoop社区忙于建立大量的新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性。
· 2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。
· 2011年12月,Hadoop1.0.0版本发布,标志着Hadoop已经初具生产规模。
· 2012年5月,Hadoop 2.0.0-alpha版本发布,这是Hadoop-2.x系列中第一个(alpha)版本。与之前的Hadoop-1.x系列相比,Hadoop-2.x版本中加入了YARN,YARN成为了Hadoop的子项目。
· 2012年10月,Impala加入Hadoop生态圈。
· 2013年10月,Hadoop2.0.0版本发布,标志着Hadoop正式进入MapReduce v2.0时代。
· 2014年2月,Spark开始代替MapReduce成为Hadoop的默认执行引擎,并成为Apache顶级项目。
· 2017年12月,继Hadoop3.0.0的四个Alpha版本和一个Beta版本后,第一个可用的Hadoop 3.0.0版本发布。
三、美国大数据发展历程?
1、大数据的发展历程
2008年被《自然》杂志专刊提出了BigData概念
萌芽阶段:
20世纪90年代到21世纪的样子,数据库技术成熟,数据挖掘理论成熟,也称数据挖掘阶段。
突破阶段:
2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。
成熟阶段:
2006——2009年,谷歌公开发表两篇论文《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》,其核心的技术包括分布式文件系统GFS,分布式计算系统框架MapReduce,分布式锁Chubby,及分布式数据库BigTable,这期间大数据研究的焦点是性能,云计算,大规模的数据集并行运算算法,以及开源分布式架构(Hadoop)
应用阶段:
2009年至今,大数据基础技术成熟之后,学术界及及企业界纷纷开始转向应用研究,2013年大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透,因此2013年也被称为大数据元年。
四、亚马逊大数据的发展历程?
“大数据”出现阶段(1980-2008年)
“大数据”热门阶段(2009-2011年)
“大数据”时代特征阶段(2012-2016年)
“数据就是力量”,这是亚马逊的成功格言。EKN研究的最新报告显示,80%的电子商务巨头都认为亚马逊的数据分析成熟度远远超过同行。亚马逊利用其20亿用户账户的大数据,通过预测分析140万台服务器上的10个亿GB的数据来促进销量的增长。亚马逊追踪你在电商网站和APP上的一切行为,尽可能多地收集信息。你可以看一下亚马逊的“账户”部分,就能发现其强大的账户管理,这也是为收集用户数据服务的。主页上有不同的部分,例如“愿望清单”、“为你推荐”、“浏览历史”、“与你浏览过的相关商品”、“购买此商品的用户也买了”,亚马逊保持对用户行为的追踪,为用户提供卓越的个性化购物体验。
五、什么是大数据通俗讲解?
有人说大数据技术是第四次技术革命,这个说法其实不为过。
很多人只是听过大数据这个词或者是简单知道它是什么,那么它是什么呢,在这里就通俗点来说一下个人对大数据的理解。
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。
所以,大数据从字面上理解就是海量的数据,技术上它包括这些海量数据的采集,过滤,清洗,存储,处理,查看等等部分,每一个部分包括一些大数据的相关技术框架来支持。
举个例子,淘宝双十一的总交易额的显示,后面就是大数据技术的支持,全国那么多淘宝用户的交易记录汇聚到一起,数据量很大,而且要做到实时的展现,就需要强有力的大数据技术来处理了。
数据量一大,那么得找地方来存,一个服务器硬盘可以挂多少,肯定满足不了这么大的数据量存储啊,所以,分布式的存储系统应运而生,那就是HDFS分布式文件系统。简单的说,就是把这么大的数据分开存在甚至几百甚至几千台服务器上,那么管理他们的系统就是HDFS文件系统,也是大数据技术的最基本的组件。
有地方存了,需要一些分布式的数据库来管理查询啊,那就有了Hbase等,还需要一些组件来计算分析这些数据啊,mapreduce是最基本的计算框架,其他的计算框架Spark和Storm可以完成实时的处理,其中HDFS和MapReduce组成了Hadoop1.
总之,一切都是数据。我们的历史,是不是都是大量的数据保存下来的,现在我们也是大数据的生活,天天有没有接到骚扰电话还知道你姓什么,你查话费什么的从几亿人的数据中查到你的信息,大数据生活。未来,大数据将更深刻的渗透到生活中。
六、第一个提出大数据概念的公司是哪家?
全球知名咨询公司麦肯锡最早提出“大数据”时代到来的。
大数据的概念: 大数据技术是以数据为本质的新一代革命性的信息技术,在数据挖潜过程中,能够带动理念、模式、技术及应用实践的创新。本书系统性地介绍了大数据的概念、发展历程、市场价值、大数据相关技术,以及大数据对中国信息化建设、智慧城市、广告、媒体等领域的核心支撑作用,并对对数据科学理论做了初步探索。大数据在数据科学理论的指导下,改变创新模式和理念,发展大数据技术,深化大数据应用和实践,而行业大数据将是大数据最大、最佳的应用领域。