About Me

Breeze‘s Blog

Spark：大数据分析引擎

Breeze

2023-11-21

admin：Breeze

Spark是什么？

Spark是一种快速、通用、可扩展的大数据分析引擎。
Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储（比如HDFS、Hive，HBase等），以及资源调度（Yarn）。

Hadoop/MapReduce 的缺点？

MR算法少，不适合描述复杂的数据处理过程。（不适合Group By 、Join等操作）

每次Reduce都需要磁盘读写，速度慢。

MR需要成对出现

Master节点调度慢

单节点

Spark的优势

*计算速度更快
相比于MapReduce的效率提升了100倍。

*易于使用
提供了大量算子，只需调用API。

*通用的大数据解决方案
离线任务和实时任务都可以处理，可降低开发的成本。

*支持多种资源管理模式
学习使用中可以采用local 模型进行任务的调试，在正式环境中又提供了standalone，yarn等模式，方便用户选择合适的资源管理模式进行适配。

*社区支持
spark 生态圈丰富，迭代更新快，成为大数据领域必备的计算引擎。

Spark 4大组件

Spark SQL 操作结构化数据
Spark Streaming 实时数据的流式计算
MLlib 机器学习算法库
GraphX 面向图计算提供的框架与算法库

Download

Post Views: 32

Breeze

永远好奇。

发表回复取消回复

要发表评论，您必须先登录。

Breeze Wang

A student majoring in Software Engineering at Central South University has an understanding of software development techniques, software architecture, and is able to use Godot to develop game projects. I am currently in the Game Development Laboratory at Central South University. I have experience participating in Global Game Jam. Loving game development.

Breeze‘s Blog

Spark：大数据分析引擎

发表回复取消回复

Breeze Wang

Categories

Featured Post

算法笔记10：跳跃游戏II

算法笔记9：跳跃游戏

算法笔记8：股票投资II

算法笔记7：股票投资

算法笔记6：轮转数组

Latest Posts

算法笔记10：跳跃游戏II

算法笔记9：跳跃游戏

算法笔记8：股票投资II

算法笔记7：股票投资

Categories

Spark：大数据分析引擎

发表回复 取消回复

Breeze Wang

Categories

Featured Post

发表回复取消回复