第六章作业及答案

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共6题)

1. (单选题)什么是对DStream中符合条件(符合返回true,否则返回false)的流数据进行筛选并返回DStream类型。

A. reduceByKey

B. map

C. flatMap

D. filter

正确答案: D:filter ;

2. (单选题)在使用SparkStreaming进行流处理之前需要进行初始化,必须创建一个流上下文对象

A. Discretized Streams

B. Dstream

C. StreamingContext

D. Spark Streaming

正确答案: C:StreamingContext ;

3. (单选题)什么用于流式数据的处理,使得构建可扩展容错流应用程序变得容易。

A. GraphX

B. DataFrame

C. Spark Streaming

D. Spark SQL

正确答案: C:Spark Streaming;

4. (单选题)什么是把相同key的DStream聚合在一起。

A. count

B. flatMap

C. filter

D. reduceByKey

正确答案: D:reduceByKey ;

5. (单选题)什么是SparkStreaming提供的最基础的抽象。它表示一系列的数据流,这些数据流可能来自于原始的输入。

A. Discretized Streams

B. RDD

C. Spark Streaming

D. StreamingContext

正确答案: A:Discretized Streams ;

6. (单选题) 什么是用来统计DStream源的每个RDD中元素的个数

A. count

B. flatMap

C. filter

D. reduceByKey

正确答案: A:count ;

二. 多选题(共4题)

7. (多选题)SparkStreaming可以接收从什么数据源产生的数据

A. Flume

B. 文件系统

C. Socket

D. Kafka

正确答案: ABCD:Flume ; 文件系统 ; Socket ; Kafka ;

8. (多选题)SparkStreaming具有的特点为,为

A. 高吞吐量

B. 高容错性

C.  易于使用

D. 高稳定性

正确答案: ABC:高吞吐量 ; 高容错性 ; 易于使用 ;

9. (多选题)DStreams输出操作包括什么

A. saveAsHadoopFiles

B. print

C. saveAsTextFiles

D. saveAsObjectFiles

正确答案: ABCD:saveAsHadoopFiles ; print; saveAsTextFiles ; saveAsObjectFiles ;

10. (多选题)DStreams转换操作包括

A. map

B. flatMap

C. reduceByKey

D. filter

正确答案: ABCD:map ; flatMap ; reduceByKey ; filter ;

三. 判断题(共9题)

11. (判断题)Spark Streaming计算过程是将输入的流数据分成多个batch进行处理,从严格意义上来讲spark streaming 并不是一个真正的实时计算框架,因为它是分批次进行处理的。

A. 对

B. 错

 正确答案: 对

12. (判断题)Spark Streaming是核心Spark API的扩展,它允许实时数据流的可扩展、高通量、容错流处理。

A. 对

B. 错

 正确答案: 对

13. (判断题)SparkStreaming用于流式数据的处理,使得构建可扩展容错流应用程序变得容易。

A. 对

B. 错

 正确答案: 对

14. (判断题)DStream可以通过Kafka,Flume和Kinesis等来源的输入数据流创建,也可以通过在其他DStream上应用高级操作来创建,也可以把DStream看做是一系列RDD。

A. 对

B. 错

 正确答案: 对

15. (判断题)Spark Streaming提供了一个高层抽象,称为Discretized Dtream或DStream,它表示连续的数据流。

A. 对

B. 错

 正确答案: 对

16. (判断题)在使用SparkStreaming进行流处理之前需要进行初始化,必须创建一个流上下文对象StreamingContext,这是所有SparkStreaming功能的主要入口点。

A. 对

B. 错

 正确答案: 对

17. (判断题) SparkStreaming能和机器学习库(MLlib)以及图计算库(Graphx)进行无缝衔接实现实时在线分析。

A. 对

B. 错

 正确答案: 对

18. (判断题)SparkStreaming可以监听某一端口获取数据,通过创建流上下文SparkContext的socketTextStream方法可以直接绑定数据源主机地址和端口。

A. 对

B. 错

 正确答案: 对

19. (判断题)SparkStreaming除了从套接字端口,监控HDFS外,还可以从kafka、flum等数据源接收并处理数据。

A. 对

B. 错

 正确答案: 对

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐