cover

云原生基础设施和操作系统分论坛 03-在Kubernetes上运行Apache Spark进行大规模数据处理的实践【数据分析】

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地

ghostwritten

232人浏览 · 2024-05-13 15:07:08

ghostwritten · 2024-05-13 15:07:08 发布

https://spark.apache.org/
视频观看：https://www.bilibili.com/video/BV17J4m1n7Gv/?spm_id_from=333.999.0.0

简介

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

在这里插入图片描述

计算与基础设施

在这里插入图片描述

可观测性

在这里插入图片描述

存储

在这里插入图片描述

在这里插入图片描述

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

cover

大数据面试问答-数据湖

永洪数据分析社区

cover

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】4.4 异构数据源整合（CSV/JSON/Excel数据导入）

永洪数据分析社区

cover

Vue3携手Echarts，打造炫酷数据可视化大屏

永洪数据分析社区

所有评论(0)

查看更多评论

ghostwritten

@xixihahalelehehe

已为社区贡献1条内容