《Spark大数据分析与内存计算》——第六章

SparkStreaming除了从套接字端口，监控HDFS外，还可以从kafka、flum等数据源接收并处理数据

阿万古

771人浏览 · 2023-12-15 11:24:25

阿万古 · 2023-12-15 11:24:25 发布

第六章作业及答案

快捷查找：Ctrl+F 在搜索框中输入题目

一. 单选题（共6题）

1. (单选题)什么是对DStream中符合条件（符合返回true，否则返回false）的流数据进行筛选并返回DStream类型。

A. reduceByKey

B. map

C. flatMap

D. filter

正确答案: D:filter ;

2. (单选题)在使用SparkStreaming进行流处理之前需要进行初始化，必须创建一个流上下文对象

A. Discretized Streams

B. Dstream

C. StreamingContext

D. Spark Streaming

正确答案: C:StreamingContext ;

3. (单选题)什么用于流式数据的处理，使得构建可扩展容错流应用程序变得容易。

A. GraphX

B. DataFrame

C. Spark Streaming

D. Spark SQL

正确答案: C:Spark Streaming;

4. (单选题)什么是把相同key的DStream聚合在一起。

A. count

B. flatMap

C. filter

D. reduceByKey

正确答案: D:reduceByKey ;

5. (单选题)什么是SparkStreaming提供的最基础的抽象。它表示一系列的数据流，这些数据流可能来自于原始的输入。

A. Discretized Streams

B. RDD

C. Spark Streaming

D. StreamingContext

正确答案: A:Discretized Streams ;

6. (单选题) 什么是用来统计DStream源的每个RDD中元素的个数

A. count

B. flatMap

C. filter

D. reduceByKey

正确答案: A:count ;

二. 多选题（共4题）

7. (多选题)SparkStreaming可以接收从什么数据源产生的数据

A. Flume

B. 文件系统

C. Socket

D. Kafka

正确答案: ABCD:Flume ; 文件系统 ; Socket ; Kafka ;

8. (多选题)SparkStreaming具有的特点为，为

A. 高吞吐量

B. 高容错性

C. 易于使用

D. 高稳定性

正确答案: ABC:高吞吐量 ; 高容错性 ; 易于使用 ;

9. (多选题)DStreams输出操作包括什么

A. saveAsHadoopFiles

B. print

C. saveAsTextFiles

D. saveAsObjectFiles

正确答案: ABCD:saveAsHadoopFiles ; print; saveAsTextFiles ; saveAsObjectFiles ;

10. (多选题)DStreams转换操作包括

A. map

B. flatMap

C. reduceByKey

D. filter

正确答案: ABCD:map ; flatMap ; reduceByKey ; filter ;

三. 判断题（共9题）

11. (判断题)Spark Streaming计算过程是将输入的流数据分成多个batch进行处理，从严格意义上来讲spark streaming 并不是一个真正的实时计算框架,因为它是分批次进行处理的。

A. 对

B. 错

正确答案: 对

12. (判断题)Spark Streaming是核心Spark API的扩展，它允许实时数据流的可扩展、高通量、容错流处理。

A. 对

B. 错

正确答案: 对

13. (判断题)SparkStreaming用于流式数据的处理，使得构建可扩展容错流应用程序变得容易。

A. 对

B. 错

正确答案: 对

14. (判断题)DStream可以通过Kafka，Flume和Kinesis等来源的输入数据流创建，也可以通过在其他DStream上应用高级操作来创建，也可以把DStream看做是一系列RDD。

A. 对

B. 错

正确答案: 对

15. (判断题)Spark Streaming提供了一个高层抽象，称为Discretized Dtream或DStream，它表示连续的数据流。

A. 对

B. 错

正确答案: 对

16. (判断题)在使用SparkStreaming进行流处理之前需要进行初始化，必须创建一个流上下文对象StreamingContext，这是所有SparkStreaming功能的主要入口点。

A. 对

B. 错

正确答案: 对

17. (判断题) SparkStreaming能和机器学习库（MLlib）以及图计算库（Graphx）进行无缝衔接实现实时在线分析。

A. 对

B. 错

正确答案: 对

18. (判断题)SparkStreaming可以监听某一端口获取数据，通过创建流上下文SparkContext的socketTextStream方法可以直接绑定数据源主机地址和端口。

A. 对

B. 错

正确答案: 对

19. (判断题)SparkStreaming除了从套接字端口，监控HDFS外，还可以从kafka、flum等数据源接收并处理数据。

A. 对

B. 错

正确答案: 对

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

物联网大数据时代：时序数据库选型深度指南，为何IoTDB脱颖而出？

永洪数据分析社区

时序数据库选型指南：工业大数据场景下基于Apache IoTDB技术价值与实践路径

永洪数据分析社区

统计与大数据分析与数学金融课程解析

永洪数据分析社区

所有评论(0)

查看更多评论

阿万古

@m0_54127955

已为社区贡献10条内容