大数据生态和spark简介

大数据生态与Spark简介一：大数据生态二： spark简介一：大数据生态大数据：历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题新技术：传统方式与技术无法处理大量、种类繁多的数据，需要新的技术解决新的问题。技术人员：有了问题，有了解决问题的技术，需要大量懂技术的人解决问题。最佳实践：解决问题的方法，途径有很多，寻找最好的解决方法。商业模式：有了最好的解决办法，同行业可以复用，不

香菜小李

249人浏览 · 2021-02-27 13:21:15

香菜小李 · 2021-02-27 13:21:15 发布

大数据生态与Spark简介

一：大数据生态
- 二： spark简介

一：大数据生态

在这里插入图片描述

大数据：历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题
新技术：传统方式与技术无法处理大量、种类繁多的数据，需要新的技术解决新的问题。
技术人员：有了问题，有了解决问题的技术，需要大量懂技术的人解决问题。
最佳实践：解决问题的方法，途径有很多，寻找最好的解决方法。
商业模式：有了最好的解决办法，同行业可以复用，不同行业可以借鉴，便形成了商业模式。

二： spark简介

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架

Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集，具有以下特点。

1.运行速度快：Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。
2.易用性好：Spark不仅支持Scala编写应用程序，而且支持Java和Python等语言进行编写，特别是Scala是一种高效、可拓展的语言，能够用简洁的代码处理较为复杂的处理工作。
3.通用性强：Spark生态圈即BDAS（伯克利数据分析栈）包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即席查询、MLlib或MLbase的机器学习和GraphX的图处理。
4.随处运行：Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spark应用程序的计算

在这里插入图片描述