第七章作业及答案

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共10题)

1. (单选题)什么提供用于构建,评估和调整 ML Pipelines 的工具。

A. Utilities

B. Featurization

C. Pipelines

D. ML Algorithms

正确答案: C:Pipelines ;

2. (单选题) 什么是与线性回归相对应的一种分类方法,其算法的基本概念是由线性回归推导而出。

A. 回归树

B. 线性回归

C. 深度学习

D.  逻辑回归

正确答案: D: 逻辑回归 ;

3. (单选题)在一次机器学习中,数据中不知道标签值,那么该学习就是

A. 自我学习

B. 监督学习

C. 无监督学习

D. 强化学习

正确答案: C:无监督学习 ;

4. (单选题)什么提供特征提取,变换,降维和选择

A. ML Algorithms

B. Pipeline

C. Featurization

D. Utilities

正确答案: C:Featurization ;

5. (单选题)什么提供线性代数,统计学,数据处理等

A. Utilities

B. Featurization

C. Pipelines

D. ML Algorithms

正确答案: A:Utilities ;

6. (单选题)什么分为分类树和回归树

A. 回归树

B. 逻辑回归

C. 线性回归

D. 深度学习

正确答案: A:回归树 ;

7. (单选题)什么提供常用的学习算法,如分类,回归,聚类和协同过滤。

A. ML Algorithms

B. Pipelines

C. Featurization

D. Utilities

正确答案: A:ML Algorithms ;

8. (单选题)什么是指能学习极其复杂模式的多层神经网络

A. 深度学习

B. 回归树

C.  逻辑回归

D. 线性回归

正确答案: A:深度学习 ;

9. (单选题)什么是处理回归任务最常用的算法之一,该算法的形式十分简单,它期望使用一个超平面拟合数据集(只有两个变量的时候就是一条直线)

A. 回归树

B. 线性回归

C. 深度学习

D. 逻辑回归

正确答案: B:线性回归 ;

10. (单选题)在一次机器学习中,数据中有标签值,那么该学习就是

A. 强化学习

B. 无监督学习

C. 监督学习

D.自我学习

正确答案: C:监督学习 ;

二. 多选题(共7题)

11. (多选题)机器学习中需要大量的数据,这些数据的组成可分为

A. 数据

B. 代码

C. 标签

D. 特征

正确答案: CD:标签 ; 特征 ;

12. (多选题)目前机器学习主流分为

A. 无监督学习

B. 强化学习

C.  监督学习

D. 自我学习

正确答案: ABC:无监督学习 ; 强化学习 ; 监督学习 ;

13. (多选题)数据预处理包括

A. 数据的清洗

B. 缺失值的处理

C. 数据标准化

D. 数据的转换

正确答案: ABCD:数据的清洗 ; 缺失值的处理 ; 数据标准化 ; 数据的转换 ;

14. (多选题)模型评估种对于二分类问题,可将样例根据其真实类别和分类器预测类别划分为

A. 真正例

B. 假负例

C. 真负例

D. 假正例

正确答案: ABCD:真正例 ; 假负例 ; 真负例 ; 假正例 ;

15. (多选题)Spark MLib提供的高阶API包括

A. Utilities

B. Pipelines

C. Featurization

D. ML Algorithms

正确答案: ABCD:Utilities ; Pipelines; Featurization ; ML Algorithms ;

16. (多选题)Spark的机器学习库为MLib ,MLib有基于什么的两套API

A. Spark Streaming

B. RDD

C. DataFrame

D. Spark SQL

正确答案: BC:RDD ; DataFrame ;

17. (多选题)机器学习中的算法常见的包括

A. 回归

B. 聚类

C. 分类

D. 关联规则

正确答案: ABC:回归 ; 聚类 ; 分类 ;

三. 判断题(共11题)

18. (判断题)评价一个模型的好坏有很多种指标,不同的样本数据要采用不同的指标评估,具体使用过程中选用哪种指标,还需要读者根据实际情况来指定。

A. 对

B. 错

 正确答案: 对

19. (判断题)机器学习的一般步骤是数据的采集,数据的加载,数据的探索,数据的预清洗,训练模型,模型评估,模型的保存与调用,这是python开发机器学习的一般过程。

A. 对

B. 错

 正确答案: 对

20. (判断题)机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

A. 对

B. 错

 正确答案: 对

21. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。

A. 对

B. 错

 正确答案: 对

22. (判断题) 数据探索是对数据的研判,确定数据的质量与数据的特征,进而为下一步的数据预处理提供基础信息,数据探索环节与可视化展示连接紧密。

A. 对

B. 错

 正确答案: 对

23. (判断题)数据预处理包括数据的清洗、数据的转换、数据标准化、缺失值的处理、特征的提取、数据的降维等方面。

A. 对

B. 错

 正确答案: 对

24. (判断题)Spark的机器学习库为MLib ,MLib只有基于RDD的一套API

A. 对

B. 错

 正确答案: 错

25. (判断题)在 Spark 3.x 发行版本中, MLlib 将向基于 DataFrames 的 API 添加功能,以达到与基于 RDD 的 API 的功能奇偶校验。

A. 对

B. 错

 正确答案: 错

26. (判断题)Spark MLib机器学习库的目标是让机器学习具有可扩展性并且变得容易。

A. 对

B. 错

 正确答案: 对

27. (判断题)数据的采集一般来源于网络爬虫,公司的各种数据库,以及各种公开的数据源。

A. 对

B. 错

 正确答案: 对

28. (判断题)从 Spark 2.0 开始, spark.mllib 包中的基于 RDD 的 API 已经进入了维护模式。Spark 的主要的机器学习 API 现在是 spark.ml 包中的基于 DataFrames 的 API

A. 对

B. 错

 正确答案: 对

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐