《Spark大数据分析与内存计算》——第七章

什么提供用于构建，评估和调整 ML Pipelines 的工具。A. UtilitiesB. FeaturizationC. PipelinesD. ML Algorithms

阿万古

606人浏览 · 2023-12-15 11:25:47

阿万古 · 2023-12-15 11:25:47 发布

第七章作业及答案

快捷查找：Ctrl+F 在搜索框中输入题目

一. 单选题（共10题）

1. (单选题)什么提供用于构建，评估和调整 ML Pipelines 的工具。

A. Utilities

B. Featurization

C. Pipelines

D. ML Algorithms

正确答案: C:Pipelines ;

2. (单选题) 什么是与线性回归相对应的一种分类方法，其算法的基本概念是由线性回归推导而出。

A. 回归树

B. 线性回归

C. 深度学习

D. 逻辑回归

正确答案: D: 逻辑回归 ;

3. (单选题)在一次机器学习中，数据中不知道标签值，那么该学习就是

A. 自我学习

B. 监督学习

C. 无监督学习

D. 强化学习

正确答案: C:无监督学习 ;

4. (单选题)什么提供特征提取，变换，降维和选择

A. ML Algorithms

B. Pipeline

C. Featurization

D. Utilities

正确答案: C:Featurization ;

5. (单选题)什么提供线性代数，统计学，数据处理等

A. Utilities

B. Featurization

C. Pipelines

D. ML Algorithms

正确答案: A:Utilities ;

6. (单选题)什么分为分类树和回归树

A. 回归树

B. 逻辑回归

C. 线性回归

D. 深度学习

正确答案: A:回归树 ;

7. (单选题)什么提供常用的学习算法，如分类，回归，聚类和协同过滤。

A. ML Algorithms

B. Pipelines

C. Featurization

D. Utilities

正确答案: A:ML Algorithms ;

8. (单选题)什么是指能学习极其复杂模式的多层神经网络

A. 深度学习

B. 回归树

C. 逻辑回归

D. 线性回归

正确答案: A:深度学习 ;

9. (单选题)什么是处理回归任务最常用的算法之一,该算法的形式十分简单，它期望使用一个超平面拟合数据集（只有两个变量的时候就是一条直线）

A. 回归树

B. 线性回归

C. 深度学习

D. 逻辑回归

正确答案: B:线性回归 ;

10. (单选题)在一次机器学习中，数据中有标签值，那么该学习就是

A. 强化学习

B. 无监督学习

C. 监督学习

D.自我学习

正确答案: C:监督学习 ;

二. 多选题（共7题）

11. (多选题)机器学习中需要大量的数据，这些数据的组成可分为

A. 数据

B. 代码

C. 标签

D. 特征

正确答案: CD:标签 ; 特征 ;

12. (多选题)目前机器学习主流分为

A. 无监督学习

B. 强化学习

C. 监督学习

D. 自我学习

正确答案: ABC:无监督学习 ; 强化学习 ; 监督学习 ;

13. (多选题)数据预处理包括

A. 数据的清洗

B. 缺失值的处理

C. 数据标准化

D. 数据的转换

正确答案: ABCD:数据的清洗 ; 缺失值的处理 ; 数据标准化 ; 数据的转换 ;

14. (多选题)模型评估种对于二分类问题，可将样例根据其真实类别和分类器预测类别划分为

A. 真正例

B. 假负例

C. 真负例

D. 假正例

正确答案: ABCD:真正例 ; 假负例 ; 真负例 ; 假正例 ;

15. (多选题)Spark MLib提供的高阶API包括

A. Utilities

B. Pipelines

C. Featurization

D. ML Algorithms

正确答案: ABCD:Utilities ; Pipelines; Featurization ; ML Algorithms ;

16. (多选题)Spark的机器学习库为MLib ，MLib有基于什么的两套API

A. Spark Streaming

B. RDD

C. DataFrame

D. Spark SQL

正确答案: BC:RDD ; DataFrame ;

17. (多选题)机器学习中的算法常见的包括

A. 回归

B. 聚类

C. 分类

D. 关联规则

正确答案: ABC:回归 ; 聚类 ; 分类 ;

三. 判断题（共11题）

18. (判断题)评价一个模型的好坏有很多种指标，不同的样本数据要采用不同的指标评估，具体使用过程中选用哪种指标，还需要读者根据实际情况来指定。

A. 对

B. 错

正确答案: 对

19. (判断题)机器学习的一般步骤是数据的采集，数据的加载，数据的探索，数据的预清洗，训练模型，模型评估，模型的保存与调用，这是python开发机器学习的一般过程。

A. 对

B. 错

正确答案: 对

20. (判断题)机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

A. 对

B. 错

正确答案: 对

21. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。

A. 对

B. 错

正确答案: 对

22. (判断题) 数据探索是对数据的研判，确定数据的质量与数据的特征，进而为下一步的数据预处理提供基础信息，数据探索环节与可视化展示连接紧密。

A. 对

B. 错

正确答案: 对

23. (判断题)数据预处理包括数据的清洗、数据的转换、数据标准化、缺失值的处理、特征的提取、数据的降维等方面。

A. 对

B. 错

正确答案: 对

24. (判断题)Spark的机器学习库为MLib ，MLib只有基于RDD的一套API

A. 对

B. 错

正确答案: 错

25. (判断题)在 Spark 3.x 发行版本中， MLlib 将向基于 DataFrames 的 API 添加功能，以达到与基于 RDD 的 API 的功能奇偶校验。

A. 对

B. 错

正确答案: 错

26. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。

A. 对

B. 错

正确答案: 对

27. (判断题)数据的采集一般来源于网络爬虫，公司的各种数据库，以及各种公开的数据源。

A. 对

B. 错

正确答案: 对

28. (判断题)从 Spark 2.0 开始， spark.mllib 包中的基于 RDD 的 API 已经进入了维护模式。Spark 的主要的机器学习 API 现在是 spark.ml 包中的基于 DataFrames 的 API

A. 对

B. 错

正确答案: 对

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

2025-2026 大数据技术专业毕设选题推荐：精准适配选题清单

永洪数据分析社区

java计算机毕业设计教师工作量统计系统基于SpringBoot的高校教师绩效测算与可视化平台教师教学任务与工作量智能汇总系统

永洪数据分析社区

BackstopJS 与 Prettier 集成：配置文件格式化与团队规范统一

在当今的前端开发环境中，**BackstopJS** 作为一款强大的视觉回归测试工具，已经成为保障UI一致性的重要武器。然而，随着团队规模的扩大和项目的复杂度提升，如何确保所有开发人员遵循统一的配置规范成为了一个挑战。本文将为您详细介绍如何通过 Prettier 工具实现 BackstopJS 配置文件的自动格式化，从而提升团队协作效率和代码质量。💪## 为什么需要 BackstopJS 配