题库分类下载APP 帮助中心

当前位置：首页 > 考试 > 职业技能 > 大数据工程技术人员 > 理论知识 >

大数据工程技术人员试题及答案(二)

大数据工程技术人员试题及答案(二)

考试总分：100分

考试类型：模拟试题

作答时间：90分钟

已答人数：322

试卷答案：有

试卷介绍： 本站为大家带来了大数据工程技术人员试题及答案(二)的模拟试卷，快来进行练习吧。

开始答题

试卷预览

单选题 判断题 多选题

1. 当前社会中，最为突出的大数据环境是（）

A互联网

B物联网

C综合国力

D自然资源

2. 大数据的发展，使信息技术变革的重点从关注技术转向关注（）

A信息

B数字

C文字

D方位

3. 在图书馆寻找想到的书，用到的作者目录属于数据库中的（）。

A索引

B引用

C散列

D对应

4. 哪个不是SQL发行的版本（）。

ASQL-88

BSQL-92

CSQL:1999

DSQL:2003

5. 以下哪项用来排序（）。

AORDER BY

BORDERED BY

CGROUP BY

DGROUPED BY

6. 关于Hive和传统关系数据库的对比分析，下面描述错误的是：

AHive一般依赖于分布式文件系统HDFS，而传统数据库则依赖于本地文件系统

B传统的关系数据库可以针对多个列构建复杂的索引，Hive不支持索引

CHive和传统关系数据库都支持分区

D传统关系数据库很难实现横向扩展，Hive具有很好的水平扩展性

7. Hadoop1.0默认的调度器策略是哪个。

A先进先出调度器

B计算能力调度器

C公平调度器

D优先级调度器

8. 根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种（）

A数据管理人员

B数据分析员

C研究科学家

D软件开发工程师

9. 下列关于数据处理流程，说法有误的是？

A在传统的数据处理流程中，存储的数据是旧的

B在传统的数据处理流程中，需要用户主动发出查询来获取结果

C传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中

D流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务

10. 下列关于键值数据库的描述，哪一项是错误的？

A扩展性好，灵活性好

B大量写操作时性能高

C无法存储结构化信息

D条件查询效率高

11. 在HBase访问接口中，Pig主要用在哪个场合？

A适合Hadoop MapReduce作业并行批处理HBase表数据

B适合HBase管理使用

C适合其他异构系统在线访问HBase表数据

D适合做数据统计

12. 下列哪一个不属于Hadoop的大数据层的功能？

A数据挖掘

B离线分析

C实时计算

DBI分析

13. 数据仓库的最终（）目的是

A收集业务需求

B建立数据仓库逻辑模型

C开发数据仓库的应用分析

D为用户和业务部门提供决策支持

14. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( )

A分类

B聚类

C关联分析

D隐马尔可夫链

15. 下列哪个不属于云计算的优势？

A按需服务

B随时服务

C通用性

D价格不菲

16. 下列说法错误的是？

A大数据魔镜是一款优秀的国产数据分析软件，可以让用户真正理解探索分析数据

BTableau是桌面系统中最简单的商业智能工具软件，是一个用于网页作图、生成互动图形的JavaScript函数库

CGoogle Fusion Tables让一般使用者也可以轻松制作出专业的统计地图

DModest Maps是一个小型、可扩展、交互式的免费库，提供了一套查看卫星地图的API

17. 在每个超步中，Worker调用顶点上的Compute等线()函数，下列哪个参数是不需要传递？

A该顶点的当前值

B一个接收到的消息的迭代器

C一个出射边的迭代器

D一个入射边的迭代器

18. 以下哪个属于数据流水线应用？

A基于规则的报警

B实时查询索引构建

C移动应用中的产品更新及实验评估分析

D费者技术中的实时数据即席分析

19. 下列关于Spark的描述，错误的是哪一项？

ASpark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发

B等线Spark在2014年打破了Hadoop保持的基准排序纪录

C等线Spark用十分之一的计算资源，获得了比Hadoop快3倍的速度

DSpark运行模式单一

20. 下列关于zookeeper描述正确的是：(　　)

A无论客户端连接的是哪个Zookeeper服务器，其看到的服务端数据模型都是一致的

B从同一个客户端发起的事务请求，最终将会严格按照其发起顺序被应用到zookeeper中

C在一个5个节点组成的Zookeeper集群中，如果同时有3台机器宕机，服务不受影响

D如果客户端连接到Zookeeper集群中的那台机器突然宕机，客户端会自动切换连接到集群其他机器

1. 数据库一般分关系型数据库和非关系型数据库。

A对

B错

2. 聚类挖掘技术要求同类数据间内容相似度尽可能小，不同类数据间内容相似度尽可能大。

A对

B错

3. 在整个数据传输的过程中，Flume将流动的数据封装到一个event（事件）中，它是Flume内部数据传输的基本单元。

A对

B错

4. 使用get命令可以将HDFS文件系统下载到本地。

A对

B错

5. 分区数量是ReduceTask的数量。

A对

B错

6. 启动Hadoop集群服务之前需要格式化文件系统。

A对

B错

7. Hadoop是由Java语言开发的。

A对

B错

8. 把句子拆分成一个个词语的过程被称为分词。

A对

B错

9. 从经济社会视角来看，大数据的重点在于“数据量大”。

A对

B错

10. 在数据管理的组织架构中，第三层的各业务部门只具有数据提供权，不具有数据使用权。

A对

B错

1. Hadoop是当前大数据平台的事实标准，下列对Hadoop的描述中正确的是：（）

AHadoop是一个由Apache基金会开发的分布式系统开源架构

BHadoop的初始设计思路来源于Google发布的学术论文

CHadoop在当前衍生出一系列优秀的开源项目，包括Hbase、Hive、Pig等

DHadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架

2. Impala主要由哪几个部分组成:( )

AImpalad

BStateStore

CCLI

DHive

3. 下列关于HLog工作原理的描述，哪些是正确的？

A分布式环境必须要考虑系统出错。HBase采用HLog保证

BHBase系统为每个Region服务器配置了一个HLog文件

CZookeeper会实时监测每个Region服务器的状态

DMaster首先会处理该故障Region服务器上面遗留的HLog文件

4. HDFS的命名空间包含什么？

A磁盘

B文件

C块

D目录

5. 云计算关键技术包括什么？

A分布式存储

B虚拟化

C分布式计算

D多租户

6. 下列关于云数据库的描述，哪些是正确的？

AAmazon是云数据库市场的先行者

BGoogleCloudSQL是谷歌公司推出的基于MySQL的云数据库

C从数据模型的角度来说，云数据库并非一种全新的数据库技术

D云数据库并没有专属于自己的数据模型

7. 针对大型图（比如社交网络和网络图）的计算问题，哪些说法是正确的？

A为特定的图应用定制相应的分布式实现：通用性不好

B基于现有的分布式计算平台进行图计算：在性能和易用性方面往往无法达到最优

C使用单机的图算法库，但是，在可以解决的问题的规模方面具有很大的局限性

D使用已有的并行图计算系统，但是，对大规模分布式系统非常重要的一些方面（比如容错），无法提供较好的支持

8. Flink核心组件栈包括：（）

A物理部署层

B算法库层

CRuntime核心层

DAPI&Libraries层

9. 与HadoopMapReduce计算框架相比，Spark所采用的Executor具有哪些优点？

A利用多线程来执行具体的任务，减少任务的启动开销

BExecutor中有一个BlockManager存储模块，有效减少IO开销

C提供了一种高度受限的共享内存模型

D不同场景之间输入输出数据能做到无缝共享

10. UMP系统架构设计遵循了以下哪些原则？

A保持单一的系统对外入口，并且为系统内部维护单一的资源池

B消除单点故障，保证服务的高可用性

C保证系统具有良好的可伸缩，能够动态地增加、删减计算与存储节点

D保证分配给用户的资源也是弹性可伸缩的

相关试卷

相关题库

手机浏览器扫码下载

关注
公众号

微信扫码关注

微信
小程序

微信扫码关注

微信扫码添加老师微信