数据仓库-Spark为什么比MR快？

（2）Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD，在各个RDD的分区中，各自处理自己的中间结果即可。（2）对于Spark来说，每一个Job的结果都可以保存到内存中，供后续Job使用。（1）MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘，在Reduce阶段再从磁盘拉取数据。（1）对MR来说，每一个Job的结果都会落地到磁盘。（2）Spark的任务是以线程的方式运行在进

꯭�

345人浏览 · 2023-07-10 19:54:47

꯭� · 2023-07-10 19:54:47 发布

1）内存&硬盘
（1）MR在Map阶段会在溢写阶段将中间结果频繁的写入磁盘，在Reduce阶段再从磁盘拉取数据。频繁的磁盘IO消耗大量时间。
（2）Spark不需要将计算的中间结果写入磁盘。这得益于Spark的RDD，在各个RDD的分区中，各自处理自己的中间结果即可。在迭代计算时，这一优势更为明显。
2）Spark DAG任务划分减少了不必要的Shuffle
（1）对MR来说，每一个Job的结果都会落地到磁盘。后续依赖于次Job结果的Job，会从磁盘中读取数据再进行计算。
（2）对于Spark来说，每一个Job的结果都可以保存到内存中，供后续Job使用。配合Spark的缓存机制，大大的减少了不必要的Shuffle。
3）资源申请粒度：进程&线程
开启和调度进程的代价一般情况下大于线程的代价。
（1）MR任务以进程的方式运行在Yarn集群中。N个MapTask就要申请N个进程
（2）Spark的任务是以线程的方式运行在进程中。N个MapTask就要申请N个线程。