大数据复习选择题

A、Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop、MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上。A、RDD（Resilient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task。C、编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运

Ruannn（努力版）

1049人浏览 · 2025-06-22 15:00:54

Ruannn（努力版） · 2025-06-22 15:00:54 发布

## 第一章

### 一、单选题（共10题，20.0分）

1. 第一次信息化浪潮主要解决什么问题？（2.0分）

A、信息传输

B、信息处理

C、信息爆炸

D、信息转换

2. 下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能？（2.0分）

A、利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理

B、利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析

C、构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全

D、把实时采集的数据作为流计算系统的输入，进行实时处理分析

3. 在大数据的计算模式中，流计算解决的是什么问题？（2.0分）

A、针对大规模数据的批量处理

B、针对大规模图结构数据的处理

C、大规模数据的存储管理和查询分析

D、针对流数据的实时计算

4. 大数据产业指什么？（2.0分）

A、一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合**

B、提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业

C、提供数据分享平台、数据分析平台、数据租售平台等服务的企业

D、提供分布式计算、数据挖掘、统计分析等服务的各类企业

5. 下列哪一个不属于大数据产业的产业链环节？（2.0分）

A、数据循环层

B、数据源层

C、数据分析层

D、数据应用层

6. 下列哪一个不属于第三次信息化浪潮中新兴的技术？（2.0分）

A、互联网

B、云计算

C、大数据

D、物联网

7. 云计算平台层（PaaS）指的是什么？（2.0分）

A、操作系统和围绕特定应用的必需的服务

B、将基础设施(计算资源和存储)作为服务出租

C、从一个集中的系统部署软件，使之在一台本地计算机上(或从云中远程地)运行的一个模型

D、提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务

8. 下面关于云计算数据中心的描述正确的是（2.0分）

A、数据中心是云计算的重要载体，为各种平台和应用提供运行支撑环境

B、数据中心就是放在企业内部的一台中心服务器

C、每个企业都需要建设一个云计算数据中心

D、数据中心不需要网络带宽的支撑

9. 下列哪个不属于物联网的应用？（2.0分）

A、智能物流

B、智能安防

C、环保监测

D、数据清洗

10. 下列哪项不属于大数据的发展历程？（2.0分）

A、成熟期

B、萌芽期

C、大规模应用期

D、迷茫期

### 二、多选题（共10题，20.0分）

1. 第三次信息化浪潮的标志是哪些技术的兴起？（2.0分）

A、个人计算机

B、物联网

C、云计算

D、大数据

2. 信息科技为大数据时代提供哪些技术支撑？（2.0分）

A、存储设备容量不断增加

B、网络带宽不断增加

C、CPU处理能力大幅提升

D、数据量不断增大

3. 大数据具有哪些特点？（2.0分）

A、数据的“大量化”

B、数据的“快速化”

C、数据的“多样化”

D、数据的“价值密度比较低”

4. 下面哪个属于大数据的应用领域？（2.0分）

A、智能医疗研发

B、监控身体情况

C、实时掌握交通状况

D、金融交易

5. 大数据的两个核心技术是什么？（2.0分）

A、分布式存储

B、分布式应用

C、分布式处理

D、集中式存储

6. 云计算关键技术包括什么？（2.0分）

A、分布式存储

B、虚拟化

C、分布式计算

D、多租户

7. 云计算的服务模式和类型主要包括哪三类？（2.0分）

A、软件即服务（SaaS）

B、平台即服务（PaaS）

C、基础设施即服务（IaaS）

D、数据采集即服务（DaaS）

8. 物联网主要由下列哪些部分组成？（2.0分）

A、应用层

B、处理层

C、感知层

D、网络层

9. 物联网的关键技术包括哪些？（2.0分）

A、识别和感知技术

B、网络与通信技术

C、数据挖掘与融合技术

D、信息处理一体化技术

10. 大数据对社会发展的影响有哪些？（2.0分）

A、大数据成为一种新的决策方式

B、大数据应用促进信息技术与各行业的深度融合

C、大数据开发推动新技术和新应用的不断涌现

D、数据对社会发展没有产生积极影响

1. 下列哪个不属于Hadoop的特性？（3.0分）

A、成本高

B、高可靠性

C、高容错性

D、运行在Linux平台上

2. Hadoop框架中最核心的设计是什么？（3.0分）

A、为海量数据提供存储的HDFS和对数据进行计算的MapReduce

B、提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务

C、Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中

D、Hadoop被视为事实上的大数据处理标准

3. 在一个基本的Hadoop集群中，DataNode主要负责什么？（3.0分）

A、负责执行由JobTracker指派的任务

B、协调数据计算任务

C、负责协调集群中的数据存储

D、存储被拆分的数据块

4. 在一个基本的Hadoop集群中，SecondaryNameNode主要负责什么？（3.0分）

A、帮助NameNode收集文件系统运行的状态信息

B、负责执行由JobTracker指派的任务

C、协调数据计算任务

D、负责协调集群中的数据存储

5. 在Hadoop项目结构中，HDFS指的是什么？（3.0分）

A、分布式文件系统

B、分布式并行编程模型

C、资源管理和调度器

D、Hadoop上的数据仓库

6. 在Hadoop项目结构中，MapReduce指的是什么？（3.0分）

A、分布式并行编程模型

B、流计算框架

C、Hadoop上的工作流管理系统

D、提供分布式协调一致性服务

### 二、多选题（共4题，16.0分）

1. 一个基本的Hadoop集群中的节点主要包括什么？（4.0分）

A、DataNode：存储被拆分的数据块

B、JobTracker：协调数据计算任务

C、TaskTracker：负责执行由JobTracker指派的任务

D、SecondaryNameNode：帮助NameNode收集文件系统运行的状态信息

2. 下列关于Hadoop的描述，哪些是正确的？（4.0分）

A、为用户提供了系统底层细节透明的分布式基础架构

B、具有很好的跨平台特性

C、可以部署在廉价的计算机集群中

D、曾经被公认为行业大数据标准开源软件

3. Hadoop集群的整体性能主要受到什么因素影响？（4.0分）

A、CPU性能

B、内存

C、网络

D、存储容量

4. 下列关于Hadoop的描述，哪些是错误的？（4.0分）

A、只能支持一种编程语言

B、具有较差的跨平台特性

C、可以部署在廉价的计算机集群中

D、曾经被公认为行业大数据标准开源软件

## 第三章 HDFS

### 一、单选题（共10题，20.0分）

1. 分布式文件系统指的是什么？（2.0分）

A、把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群

B、用于在Hadoop与传统数据库之间进行数据传递

C、一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

D、一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据

2. 下列哪一项不属于HDFS采用抽象的块概念带来的好处？（2.0分）

A、简化系统设计

B、支持大规模文件存储

C、强大的跨平台兼容性

D、适合数据备份

3. 下面对SecondaryNameNode第二名称节点的描述，哪个是错误的？（2.0分）

A、SecondaryNameNode一般是并行运行在多台机器上

B、它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间

C、SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件，并下载到本地的相应目录下

D、SecondaryNameNode是HDFS架构中的一个组成部分

4. 下面哪一项不属于计算机集群中的节点？（2.0分）

A、主节点(Master、Node)

B、源节点（SourceNode）

C、名称结点(NameNode)

D、从节点（Slave、Node）

5. 在HDFS中，NameNode的主要功能是什么？（2.0分）

A、维护了block、id、到datanode本地文件的映射关系

B、存储文件内容

C、文件内存保存在磁盘中

D、存储元数据

6. 下面对FsImage的描述，哪个是错误的？（2.0分）

A、FsImage文件没有记录每个块存储在哪个数据节点

B、FsImage文件包含文件系统中所有目录和文件inode的序列化形式

C、FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据

D、FsImage文件记录了每个块具体被存储在哪个数据节点

7. 在HDFS中，默认一个块多大？（2.0分）

A、64MB

B、32KB

C、128KB

D、16KB

8. HDFS采用了什么模型？（2.0分）

A、分层模型

B、主从结构模型

C、管道-过滤器模型

D、点对点模型

9. 下列关于HDFS的描述，哪个不正确？（2.0分）

A、HDFS还采用了相应的数据存放、数据读取和数据复制策略，来提升系统整体读写响应性能

B、HDFS采用了主从（Master/Slave）结构模型

C、HDFS采用了冗余数据存储，增强了数据可靠性

D、HDFS采用块的概念，使得系统的设计变得更加复杂

10. 在Hadoop项目结构中，HDFS指的是什么？（2.0分）

A、分布式文件系统

B、流数据读写

C、资源管理和调度器

D、Hadoop上的数据仓库

### 二、多选题（共10题，20.0分）

1. HDFS要实现以下哪几个目标？（2.0分）

A、兼容廉价的硬件设备

B、流数据读写

C、大数据集

D、复杂的文件模型

2. HDFS特殊的设计，在实现优良特性的同时，也使得自身具有一些应用局限性，主要包括以下哪几个方面？（2.0分）

A、较差的跨平台兼容性

B、无法高效存储大量小文件

C、不支持多用户写入及任意修改文件

D、不适合低延迟数据访问

3. HDFS采用抽象的块概念可以带来以下哪几个明显的好处？（2.0分）

A、支持大规模文件存储

B、持小规模文件存储

C、适合数据备份

D、简化系统设计

4. 在HDFS中，名称节点（NameNode）主要保存了哪些核心的数据结构？（2.0分）

A、FsImage

B、DN8

C、Block

D、EditLog

5. 数据节点（DataNode）的主要功能包括哪些？（2.0分）

A、负责数据的存储和读取

B、根据客户端或者是名称节点的调度来进行数据的存储和检索

C、向名称节点定期发送自己所存储的块的列表

D、用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间

6. HDFS的命名空间包含什么？（2.0分）

A、磁盘

B、文件

C、块

D、目录

7. 下列对于客服端的描述，哪些是正确的？（2.0分）

A、客户端是用户操作HDFS最常用的方式，HDFS在部署时都提供了客户端

B、HDFS客户端是一个库，暴露了HDFS文件系统接口

C、严格来说，客户端并不算是HDFS的一部分

D、客户端可以支持打开、读取、写入等常见的操作

8. HDFS只设置唯一一个名称节点，这样做虽然大大简化了系统设计，但也带来了哪些明显的局限性？（2.0分）

A、命名空间的限制

B、性能的瓶颈

C、隔离问题

D、集群的可用性

9. HDFS数据块多副本存储具备以下哪些优点？（2.0分）

A、加快数据传输速度

B、容易检查数据错误

C、保证数据可靠性

D、适合多平台上运行

10. HDFS具有较高的容错性，设计了哪些相应的机制检测数据错误和进行自动恢复？（2.0分）

A、数据源太大

B、数据节点出错

C、数据出错

D、名称节点出错

# 大数据第四章测试题

## 一、单选题（共9题，18.0分）

1. 下列关于BigTable的描述，哪个是错误的？（2.0分）

A、爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTable里

B、BigTable是一个分布式存储系统

C、BigTable起初用于解决典型的互联网搜索问题

D、网络搜索应用查询建立好的索引，从BigTable得到网页

2. 下列选项中，关于HBase和BigTable的底层技术对应关系，哪个是错误的？（2.0分）

A、GFS与HDFS相对应

B、GFS与Zookeeper相对应

C、MapReduce与Hadoop、MapReduce相对应

D、Chubby与Zookeeper相对应

3. 在HBase中，关于数据操作的描述，下列哪一项是错误的？（2.0分）

A、HBase采用了更加简单的数据模型，它把数据存储为未经解释的字符串

B、HBase操作不存在复杂的表与表之间的关系

C、HBase不支持修改操作

D、HBase在设计上就避免了复杂的表和表之间的关系

4. 在HBase访问接口中，Pig主要用在哪个场合？（2.0分）

A、适合Hadoop、MapReduce作业并行批处理HBase表数据

B、适合HBase管理使用

C、适合其他异构系统在线访问HBase表数据

D、适合做数据统计

5. HBase中需要根据某些因素来确定一个单元格，这些因素可以视为一个"四维坐标"，下面哪个不属于"四维坐标"？（2.0分）

A、行键

B、关键字

C、列族

D、时间戳

6. 关于HBase的三层结构中各层次的名称和作用的说法，哪个是错误的？（2.0分）

A、Zookeeper文件记录了用户数据表的Region位置信息

B、-ROOT-表记录了.META.表的Region位置信息

C、.META.表保存了HBase中所有用户数据表的Region位置信息

D、Zookeeper文件记录了-ROOT-表的位置信息

7. 下面关于主服务器Master主要负责表和Region的管理工作的描述，哪个是错误的？（2.0分）

A、在Region分裂或合并后，负责重新调整Region的分布

B、对发生故障失效的Region服务器上的Region进行迁移

C、管理用户对表的增加、删除、修改、查询等操作

D、不支持不同Region服务器之间的负载均衡

8. HBase只有一个针对行健的索引，如果要访问HBase表中的行，下面哪种方式是不可行的？（2.0分）

A、通过单个行健访问

B、通过时间戳访问

C、通过一个行健的区间来访问

D、全表扫描

9. 下面关于Region的说法，哪个是错误的？（2.0分）

A、同一个Region不会被分拆到多个Region服务器

B、为了加快访问速度，.META.表的全部Region都会被保存在内存中

C、一个-ROOT-表可以有多个Region

D、为了加速寻址，客户端会缓存位置信息，同时，需要解决缓存失效问题

## 二、多选题（共10题，20.0分）

1. 关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase？（2.0分）

A、Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop、MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求上

B、HDFS面向批量访问模式，不是随机访问模式

C、传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题

D、传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间

2. HBase与传统的关系数据库的区别主要体现在以下哪几个方面？（2.0分）

A、数据类型

B、数据操作

C、存储模式

D、数据维护

3. HBase访问接口类型包括哪些？（2.0分）

A、Native、Java、API

B、HBase、Shell

C、Thrift、Gateway

D、REST、Gateway

4. 下列关于数据模型的描述，哪些是正确的？（2.0分）

A、HBase采用表来组织数据，表由行和列组成，列划分为若干个列族

B、每个HBase表都由若干行组成，每个行由行键（row、key）来标识

C、列族里的数据通过列限定符（或列）来定位

D、每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

5. HBase的实现包括哪三个主要的功能组件？（2.0分）

A、库函数：链接到每个客户端

B、一个Master主服务器

C、许多个Region服务器

D、廉价的计算机集群

6. HBase的三层结构中，三层指的是哪三层？（2.0分）

A、Zookeeper文件

B、-ROOT-表

C、.META.表

D、数据类型

7. 以下哪些软件可以对HBase进行性能监视？（2.0分）

A、Master-status(自带)

B、Ganglia

C、OpenTSDB

D、Ambari

8. Zookeeper是一个很好的集群管理工具，被大量用于分布式计算，它主要提供什么服务？（2.0分）

A、配置维护

B、域名服务

C、分布式同步

D、负载均衡服务

9. 下列关于Region服务器工作原理的描述，哪些是正确的？（2.0分）

A、每个Region服务器都有一个自己的HLog、文件

B、每次刷写都生成一个新的StoreFile，数量太多，影响查找速度

C、合并操作比较耗费资源，只有数量达到一个阈值才启动合并

D、Store是Region服务器的核心

10. 下列关于HLog工作原理的描述，哪些是正确的？（2.0分）

A、分布式环境必须要考虑系统出错。HBase采用HLog保证

B、HBase系统为每个Region服务器配置了一个HLog文件

C、Zookeeper会实时监测每个Region服务器的状态

D、Master首先会处理该故障Region服务器上面遗留的HLog文件

# 大数据第七章测试题

## 一、单选题（共9题，18.0分）

1. 下列传统并行计算框架，说法错误的是哪一项？（2.0分）

A、刀片服务器、高速网、SAN，价格贵，扩展性差上

B、共享式(共享内存/共享存储)，容错性好

C、编程难度高

D、实时、细粒度计算、计算密集型

2. 下列关于MapReduce模型的描述，错误的是哪一项？（2.0分）

A、MapReduce采用"分而治之"策略

B、MapReduce设计的一个理念就是"计算向数据靠拢"

C、MapReduce框架采用了Master/Slave架构

D、MapReduce应用程序只能用Java来写

3. MapReduce1.0的体系结构中，JobTracker是主要任务是什么？（2.0分）

A、负责资源监控和作业调度，监控所有TaskTracker与Job的健康状况

B、使用"slot"等量划分本节点上的资源量（CPU、内存等）

C、会周期性地通过"心跳"将本节点上资源的使用情况和任务的运行进度汇报给TaskTracker

D、会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务（Task）

4. 下列关于MapReduce工作流程，哪个描述是正确的？（2.0分）

A、所有的数据交换都是通过MapReduce框架自身去实现的

B、不同的Map任务之间可以进行通信

C、不同的Reduce任务之间可以发生信息交换

D、用户可以显式地从一台机器向另一台机器发送消息

5. 下列关于MapReduce的说法，哪个描述是错误的？（2.0分）

A、MapReduce具有广泛的应用，比如关系代数运算、分组与聚合运算等

B、MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数

C、编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据集的计算

D、不同的Map任务之间可以进行通信

6. 下列关于Map和Reduce函数的描述，哪个是错误的？（2.0分）

A、Map将小数据集进一步解析成一批<key,value>对，输入Map函数中进行处理

B、Map每一个输入的<k1,v1>会输出一批<k2,v2>。<k2,v2>是计算的中间结果

C、Reduce输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于不同k2的value

D、Reduce输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于同一个k2的value

7. 下面哪一项不是MapReduce体系结构主要部分？（2.0分）

A、Client

B、JobTracker

C、TaskTracker以及Task

D、Job

8. 关于MapReduce1.0的体系结构的描述，下列说法错误的是？（2.0分）

A、Task分为MapTask和ReduceTask两种，分别由JobTracker和TaskTracker启动

B、slot分为Mapslot和Reduceslot两种，分别供MapTask和ReduceTask使用

C、TaskTracker使用"slot"等量划分本节点上的资源量（CPU、内存等）

D、TaskTracker会周期性接收JobTracker发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）

9. 下列说法错误的是？（2.0分）

A、Hadoop MapReduce是MapReduce的开源实现，后者比前者使用门槛低很多

B、MapReduce采用非共享式架构，容错性好

C、MapReduce主要用于批处理、实时、计算密集型应用

D、MapReduce采用"分而治之"策略

# 大数据第十章测试题

## 一、单选题（共8题，16.0分）

1. 下列关于Spark的描述，错误的是哪一项？（2.0分）

A、Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发

B、Spark在2014年打破了Hadoop保持的基准排序纪录

C、Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度

D、Spark运行模式单一

2. 下列关于Spark的描述，错误的是哪一项？（2.0分）

A、使用DAG执行引擎以支持循环数据流与内存计算

B、可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中

C、支持使用Scala、Java、Python和R语言进行编程，但是不可以通过Spark Shell进行交互式编程

D、Spark运行模式不是单一的

3. 下列关于Scala特性的描述，错误的是哪一项？（2.0分）

A、Scala语法复杂，但是能提供优雅的API计算

B、Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统

C、Scala兼容Java，运行速度快，且能融合到Hadoop生态圈中

D、Scala是Spark的主要编程语言

4. 下列说法哪项有误？（2.0分）

A、相对于Spark来说，使用Hadoop进行迭代计算非常耗资源

B、Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

C、Hadoop的设计遵循"一个软件栈满足不同应用场景"的理念

D、Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案

5. 在Spark生态系统组件的应用场景中，下列哪项说法是错误的？（2.0分）

A、Spark应用在复杂的批量数据处理

B、Spark SQL是基于历史数据的交互式查询

C、Spark Streaming是基于历史数据的数据挖掘

D、GraphX是图结构数据的处理

6. 下列说法错误的是？（2.0分）

A、RDD（Resilient Distributed Dataset）是运行在工作节点（WorkerNode）的一个进程，负责运行Task

B、Application是用户编写的Spark应用程序

C、一个Job包含多个RDD及作用于相应RDD上的各种操作

D、Directed Acyclic Graph反映RDD之间的依赖关系

7. 下列关于RDD说法，描述有误的是？（2.0分）

A、一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合

B、每个RDD可分成多个分区，每个分区就是一个数据集片段

C、RDD是可以直接修改的

D、RDD提供了一种高度受限的共享内存模型

8. Spark生态系统组件Spark Streaming的应用场景是？（2.0分）

A、基于历史数据的数据挖掘

B、图结构数据的处理

C、基于历史数据的交互式查询

D、基于实时数据流的数据处理

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

MATLAB 高效算法实战：数据分析与算法优化的效率秘诀

永洪数据分析社区

2025-2026 年数据分析设选题大全热门推荐

永洪数据分析社区

从原理到实战：DeepAnalyze 如何在真实业务中实现自主数据分析

永洪数据分析社区

所有评论(0)

查看更多评论

Ruannn（努力版）

@Ruannn

已为社区贡献3条内容

大数据复习 选择题

Ruannn（努力版）

所有评论(0)

Ruannn（努力版）

大数据复习选择题