admin:Breeze
Spark是什么?
Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive,HBase等),以及资源调度(Yarn)。
Hadoop/MapReduce 的缺点?
MR算法少, 不适合描述复杂的数据处理过程。(不适合Group By 、Join等操作)
每次Reduce都需要磁盘读写,速度慢。
MR需要成对出现
Master节点调度慢
单节点
Spark的优势
*计算速度更快
相比于MapReduce的效率提升了100倍。
*易于使用
提供了大量算子,只需调用API。
*通用的大数据解决方案
离线任务和实时任务都可以处理,可降低开发的成本。
*支持多种资源管理模式
学习使用中可以采用local 模型进行任务的调试,在正式环境中又提供了standalone,yarn等模式,方便用户选择合适的资源管理模式进行适配。
*社区支持
spark 生态圈丰富,迭代更新快,成为大数据领域必备的计算引擎。
Spark 4大组件
Spark SQL 操作结构化数据
Spark Streaming 实时数据的流式计算
MLlib 机器学习算法库
GraphX 面向图计算提供的框架与算法库
发表回复
要发表评论,您必须先登录。