Spark:大数据分析引擎

admin:Breeze

Spark是什么?

Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive,HBase等),以及资源调度(Yarn)。

Hadoop/MapReduce 的缺点?

MR算法少, 不适合描述复杂的数据处理过程。(不适合Group By 、Join等操作)

每次Reduce都需要磁盘读写,速度慢。

MR需要成对出现

Master节点调度慢

单节点

Spark的优势

*计算速度更快
相比于MapReduce的效率提升了100倍。

*易于使用
提供了大量算子,只需调用API。

*通用的大数据解决方案
离线任务和实时任务都可以处理,可降低开发的成本。

*支持多种资源管理模式
学习使用中可以采用local 模型进行任务的调试,在正式环境中又提供了standalone,yarn等模式,方便用户选择合适的资源管理模式进行适配。

*社区支持
spark 生态圈丰富,迭代更新快,成为大数据领域必备的计算引擎。

Spark 4大组件

Spark SQL 操作结构化数据
Spark Streaming  实时数据的流式计算
MLlib  机器学习算法库
GraphX  面向图计算提供的框架与算法库

发表回复

Breeze Wang

A student majoring in Software Engineering at Central South University has an understanding of software development techniques, software architecture, and is able to use Godot to develop game projects. I am currently in the Game Development Laboratory at Central South University. I have experience participating in Global Game Jam. Loving game development.