
《Spark大数据分析与内存计算》——第七章
什么提供用于构建,评估和调整 ML Pipelines 的工具。A. UtilitiesB. FeaturizationC. PipelinesD. ML Algorithms
第七章作业及答案
快捷查找:Ctrl+F 在搜索框中输入题目
一. 单选题(共10题)
1. (单选题)什么提供用于构建,评估和调整 ML Pipelines 的工具。
A. Utilities
B. Featurization
C. Pipelines
D. ML Algorithms
正确答案: C:Pipelines ;
2. (单选题) 什么是与线性回归相对应的一种分类方法,其算法的基本概念是由线性回归推导而出。
A. 回归树
B. 线性回归
C. 深度学习
D. 逻辑回归
正确答案: D: 逻辑回归 ;
3. (单选题)在一次机器学习中,数据中不知道标签值,那么该学习就是
A. 自我学习
B. 监督学习
C. 无监督学习
D. 强化学习
正确答案: C:无监督学习 ;
4. (单选题)什么提供特征提取,变换,降维和选择
A. ML Algorithms
B. Pipeline
C. Featurization
D. Utilities
正确答案: C:Featurization ;
5. (单选题)什么提供线性代数,统计学,数据处理等
A. Utilities
B. Featurization
C. Pipelines
D. ML Algorithms
正确答案: A:Utilities ;
6. (单选题)什么分为分类树和回归树
A. 回归树
B. 逻辑回归
C. 线性回归
D. 深度学习
正确答案: A:回归树 ;
7. (单选题)什么提供常用的学习算法,如分类,回归,聚类和协同过滤。
A. ML Algorithms
B. Pipelines
C. Featurization
D. Utilities
正确答案: A:ML Algorithms ;
8. (单选题)什么是指能学习极其复杂模式的多层神经网络
A. 深度学习
B. 回归树
C. 逻辑回归
D. 线性回归
正确答案: A:深度学习 ;
9. (单选题)什么是处理回归任务最常用的算法之一,该算法的形式十分简单,它期望使用一个超平面拟合数据集(只有两个变量的时候就是一条直线)
A. 回归树
B. 线性回归
C. 深度学习
D. 逻辑回归
正确答案: B:线性回归 ;
10. (单选题)在一次机器学习中,数据中有标签值,那么该学习就是
A. 强化学习
B. 无监督学习
C. 监督学习
D.自我学习
正确答案: C:监督学习 ;
二. 多选题(共7题)
11. (多选题)机器学习中需要大量的数据,这些数据的组成可分为
A. 数据
B. 代码
C. 标签
D. 特征
正确答案: CD:标签 ; 特征 ;
12. (多选题)目前机器学习主流分为
A. 无监督学习
B. 强化学习
C. 监督学习
D. 自我学习
正确答案: ABC:无监督学习 ; 强化学习 ; 监督学习 ;
13. (多选题)数据预处理包括
A. 数据的清洗
B. 缺失值的处理
C. 数据标准化
D. 数据的转换
正确答案: ABCD:数据的清洗 ; 缺失值的处理 ; 数据标准化 ; 数据的转换 ;
14. (多选题)模型评估种对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为
A. 真正例
B. 假负例
C. 真负例
D. 假正例
正确答案: ABCD:真正例 ; 假负例 ; 真负例 ; 假正例 ;
15. (多选题)Spark MLib提供的高阶API包括
A. Utilities
B. Pipelines
C. Featurization
D. ML Algorithms
正确答案: ABCD:Utilities ; Pipelines; Featurization ; ML Algorithms ;
16. (多选题)Spark的机器学习库为MLib ,MLib有基于什么的两套API
A. Spark Streaming
B. RDD
C. DataFrame
D. Spark SQL
正确答案: BC:RDD ; DataFrame ;
17. (多选题)机器学习中的算法常见的包括
A. 回归
B. 聚类
C. 分类
D. 关联规则
正确答案: ABC:回归 ; 聚类 ; 分类 ;
三. 判断题(共11题)
18. (判断题)评价一个模型的好坏有很多种指标,不同的样本数据要采用不同的指标评估,具体使用过程中选用哪种指标,还需要读者根据实际情况来指定。
A. 对
B. 错
正确答案: 对
19. (判断题)机器学习的一般步骤是数据的采集,数据的加载,数据的探索,数据的预清洗,训练模型,模型评估,模型的保存与调用,这是python开发机器学习的一般过程。
A. 对
B. 错
正确答案: 对
20. (判断题)机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
A. 对
B. 错
正确答案: 对
21. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。
A. 对
B. 错
正确答案: 对
22. (判断题) 数据探索是对数据的研判,确定数据的质量与数据的特征,进而为下一步的数据预处理提供基础信息,数据探索环节与可视化展示连接紧密。
A. 对
B. 错
正确答案: 对
23. (判断题)数据预处理包括数据的清洗、数据的转换、数据标准化、缺失值的处理、特征的提取、数据的降维等方面。
A. 对
B. 错
正确答案: 对
24. (判断题)Spark的机器学习库为MLib ,MLib只有基于RDD的一套API
A. 对
B. 错
正确答案: 错
25. (判断题)在 Spark 3.x 发行版本中, MLlib 将向基于 DataFrames 的 API 添加功能,以达到与基于 RDD 的 API 的功能奇偶校验。
A. 对
B. 错
正确答案: 错
26. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。
A. 对
B. 错
正确答案: 对
27. (判断题)数据的采集一般来源于网络爬虫,公司的各种数据库,以及各种公开的数据源。
A. 对
B. 错
正确答案: 对
28. (判断题)从 Spark 2.0 开始, spark.mllib 包中的基于 RDD 的 API 已经进入了维护模式。Spark 的主要的机器学习 API 现在是 spark.ml 包中的基于 DataFrames 的 API
A. 对
B. 错
正确答案: 对
更多推荐
所有评论(0)