题库分类下载APP 帮助中心

当前位置：首页 > 考试 > 职业技能 > 大数据工程技术人员 > 理论知识 >

大数据工程技术人员试题及答案(三)

大数据工程技术人员试题及答案(三)

考试总分：100分

考试类型：模拟试题

作答时间：90分钟

已答人数：394

试卷答案：有

试卷介绍： 本站为大家带来了大数据工程技术人员试题及答案(三)的模拟试卷，快来进行练习吧。

开始答题

试卷预览

单选题 判断题 多选题

1. 一切事物及事物运动的状态，不仅销售数据、价格这些客观标准可以形成大数据，甚至连顾客情绪（如色彩、空间的感知等）都可以测得，这体现了大数据思维维度中的(　　)

A定量思维

B相关思维

C因果思维

D实验思维

2. 大数据的4V特征中的Velocity是指(　　)。

A价值密度低

B处理速度快

C数据类型繁多

D数据体量巨大

3. 以下哪种说法是错误的（）

A将罪犯的定罪权放在数据手中，借以表达对数据和分析结果的崇尚，这实际上是一种滥用。

B随着数据量和种类的增多，大数据促进了数据内容的交叉检验，匿名化的数据不会威胁到任何人的隐私。

C采集个人数据的工具就隐藏在我们日常生活所必备的工具当中，比如网页和智能手机应用程序。

D预测与惩罚，不是因为所做，而是因为将做。

4. 大数据的简单算法与小数据的复杂算法相比（）。

A更有效

B相当

C不具备可比性

D无效

5. 采样分析的精确性随着采样随机性的增加而（），但与样本数量的增加关系不大。

A降低

B不变

C提高

D无关

6. 在进行选择查询时，关于文件扫描方法的描述不正确的是

A其本质是线性搜索

B可以进行二进制搜索

C需要扫描每个文件块并测试所有记录

D如果选择位于关键属性上，则可以停止查找记录

7. Hive查询语言和SQL的一个不同之处在于(　　)操作

AGroup

BJoin

CPartition

DUnion

8. HBase在新建表的时候必须指定表名和(　　)，不需要指定列，所有的列在后续添加数据的时候动态添加。

A行

B单元格

C时间戳

D列族

9. 数据库可以被建模成

A实体

B实体间的关系

C以上两者

D以上都不是

10. MySQL中，建立数据库用（）。

ACREATE TABLE

BCREATE TRIGGER

CCREATE INDEX

DCREATE DATABASE

11. 下面哪一项不是云数据库的特性？

A动态可扩展

B高成本

C易用性

D大规模并行处理

12. 下面关于主服务器Master主要负责表和Region的管理工作的描述，哪个是错误的？

A在Region分裂或合并后，负责重新调整Region的分布

B对发生故障失效的Region服务器上的Region进行迁移

C管理用户对表的增加、删除、修改、查询等操作

D不支持不同Region服务器之间的负载均衡

13. 下列关于HDFS的描述，哪个不正确？

AHDFS还采用了相应的数据存放、数据读取和数据复制策略，来提升系统整体读写响应性能

BHDFS采用了主从（Master/Slave）结构模型

CHDFS采用了冗余数据存储，增强了数据可靠性

DHDFS采用块的概念，使得系统的设计变得更加复杂

14. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( )

A关联规则发现

B聚类

C分类

D自然语言处理

15. 下列关于RDD说法，描述有误的是？

A一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合

B每个RDD可分成多个分区，每个分区就是一个数据集片段

CRDD是可以直接修改的

DRDD提供了一种高度受限的共享内存模型

16. 实体集参与关系集的方式：（）。

A完全参与

B部分参与

C以上均有可能

D以上均不是

17. 哪一个不是修改数据库架构的授权形式之一（）。

Aindex

Bdrop

Cerase

Dresources

18. 下面哪个不可能是Hive的执行引擎：

AMapReduce

BTez

CStorm

DSpark

19. 下列国家的大数据发展行动中，支持原则先行、谨慎发展的国家（）

A英国

B韩国

C印度

D澳大利亚

20. 大数据时代，数（）据使用的关键是

A数据收集

B数据存储

C数据分析

D数据再利用

1. 在噪声数据中，波动数据比离群点数据偏离整体水平更大。（）

A对

B错

2. 保障数据安全可以保护核心数据资产，防止来自外部的攻击，造成数据泄密

A对

B错

3. 数据治理规则中规则编码不是规则的唯一标识。

A对

B错

4. 数据挖掘就是从数据中发现潜在的规则，完成数据的整合，发挥数据的最大价值。

A对

B错

5. Zookeeper集群宕机数超过集群数一半，则Zookeeper服务失效。

A对

B错

6. NameNode负责管理元数据，客户端每次读写请求时，都会从磁盘中读取或写入元数据信息并反馈给客户端。

A对

B错

7. 配置Hadoop集群只需要修改core-site.xml配置文件就可以。

A对

B错

8. python中定义函数不用声明数据类型。

A对

B错

9. 数据运营管理平台提供的服务能力有数据资源共享服务、数据资源治理服务、数据资源查询服务及数据资源在线监测服务四大能力。

A对

B错

10. 数据中台定位于为各专业、各单位提供数据共享和分析应用服务

A对

B错

1. Hadoop当前衍生了众多优秀的开源项目，下列对其主要开源项目的描述中正确的是：（）

AHBase是建立在HDFS之上的可靠的、可扩展的分布式数据集库，是一个高可靠性、高性能、面向列(簇)、可伸缩的分布式存储系统

BZookeeper是一个针对大型分布式系统的可靠协调系统，主要提供配置服务、名字服务、分布式服务、组服务等功能

CHive是一个基于Hadoop的数据仓库平台，它提供了很多数据仓库中使用的工具和方法

DHadoopCommon是Hadoop一系列分布式文件系统通用的I/O组件和接口，包括序列化、JavaRPC和持久化数据结构等

2. 下列对于客服端的描述，哪些是正确的？

A客户端是用户操作HDFS最常用的方式，HDFS在部署时都提供了客户端

BHDFS客户端是一个库，暴露了HDFS文件系统接口

C严格来说，客户端并不算是HDFS的一部分

D客户端可以支持打开、读取、写入等常见的操作

3. 在HDFS中，名称节点（NameNode）主要保存了哪些核心的数据结构？

AFsImage

BDN8

CBlock

DEditLog

4. 物联网主要由下列哪些部分组成的？

A应用层

B处理层

C感知层

D网络层

5. 大数据的两个核心技术是什么？

A分布式存储

B分布式应用

C分布式处理

D集中式存储

6. Flink常见的应用场景包括：（）

A事件驱动型应用

B数据分析应用

C数据流水线应用

D正反馈应用

7. Hadoop生态系统中Hive与其他部分的关系的描述正确的是：（）

AHDFS作为高可靠的底层存储，用来存储Hive的海量数据

BMapReduce对这些海量数据进行批处理，实现Hive的高性能计算

C当采用MapRedue作为Hive的执行引擎时，用HiveQL语句编写的处理逻辑，最终都要转化为MapReduce任务来运行

DHBase与Hive的功能是互补的，它实现了Hive不能提供的功能

8. 传统数据仓库面临哪些挑战：（）

A无法满足快速增长的海量数据存储需求

B无法有效处理不同类型的数据

C具有很强的扩展性

D计算和处理能力不足

9. 实现UserCF算法的关键步骤是计算用户与用户之间的兴趣相似度，下列哪些是属于计算相似度的算法？

A泊松相关系数

B余弦相似度

C调整余弦相似度

D调整正弦相似度

10. 配置Hadoop集群时，下列哪个Hadoop配置文件需要进行修改？(　　)

Ahadoop-env.sh

Bprofile

Ccore-site.xml

Difcfg-eth0

相关试卷

相关题库

手机浏览器扫码下载

关注
公众号

微信扫码关注

微信
小程序

微信扫码关注

微信扫码添加老师微信