大数据工程技术人员试题及答案(二)

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:283

试卷答案:没有

试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(二)的模拟试卷,快来进行练习吧。

开始答题

试卷预览

  • 1. 当前社会中,最为突出的大数据环境是( )

    A互联网

    B物联网

    C综合国力

    D自然资源

  • 2. 大数据的发展,使信息技术变革的重点从关注技术转向关注( )

    A信息

    B数字

    C文字

    D方位

  • 3. 在图书馆寻找想到的书,用到的作者目录属于数据库中的()。

    A索引

    B引用

    C散列

    D对应

  • 4. 哪个不是SQL发行的版本()。

    ASQL-88

    BSQL-92

    CSQL:1999

    DSQL:2003

  • 5. 以下哪项用来排序()。

    AORDER BY

    BORDERED BY

    CGROUP BY

    DGROUPED BY

  • 6. 关于Hive和传统关系数据库的对比分析,下面描述错误的是:

    AHive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统

    B传统的关系数据库可以针对多个列构建复杂的索引,Hive不支持索引

    CHive和传统关系数据库都支持分区

    D传统关系数据库很难实现横向扩展,Hive具有很好的水平扩展性

  • 7. Hadoop1.0默认的调度器策略是哪个。

    A先进先出调度器

    B计算能力调度器

    C公平调度器

    D优先级调度器

  • 8. 根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种()

    A数据管理人员

    B数据分析员

    C研究科学家

    D软件开发工程师

  • 9. 下列关于数据处理流程,说法有误的是?

    A在传统的数据处理流程中,存储的数据是旧的

    B在传统的数据处理流程中,需要用户主动发出查询来获取结果

    C传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中

    D流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务

  • 10. 下列关于键值数据库的描述,哪一项是错误的?

    A扩展性好,灵活性好

    B大量写操作时性能高

    C无法存储结构化信息

    D条件查询效率高

  • 11. 在HBase访问接口中,Pig主要用在哪个场合?

    A适合Hadoop MapReduce作业并行批处理HBase表数据

    B适合HBase管理使用

    C适合其他异构系统在线访问HBase表数据

    D适合做数据统计

  • 12. 下列哪一个不属于Hadoop的大数据层的功能?

    A数据挖掘

    B离线分析

    C实时计算

    DBI分析

  • 13. 数据仓库的最终目的是()。

    A收集业务需求

    B建立数据仓库逻辑模型

    C开发数据仓库的应用分析

    D为用户和业务部门提供决策支持

  • 14. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )

    A分类

    B聚类

    C关联分析

    D隐马尔可夫链

  • 15. 下列哪个不属于云计算的优势?

    A按需服务

    B随时服务

    C通用性

    D价格不菲

  • 16. 下列说法错误的是?

    A大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据

    BTableau是桌面系统中最简单的商业智能工具软件,是一个用于网页作图、生成互动图形的JavaScript函数库

    CGoogle Fusion Tables让一般使用者也可以轻松制作出专业的统计地图

    DModest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫星地图的API

  • 17. 在每个超步中,Worker调用顶点上的Compute等线()函数,下列哪个参数是不需要传递?

    A该顶点的当前值

    B一个接收到的消息的迭代器

    C一个出射边的迭代器

    D一个入射边的迭代器

  • 18. 以下哪个属于数据流水线应用?

    A基于规则的报警

    B实时查询索引构建

    C移动应用中的产品更新及实验评估分析

    D费者技术中的实时数据即席分析

  • 19. 下列关于Spark的描述,错误的是哪一项?

    ASpark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发

    B等线Spark在2014年打破了Hadoop保持的基准排序纪录

    C等线Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度

    DSpark运行模式单一

  • 20. 下列关于zookeeper描述正确的是:(  )

    A无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的

    B从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中

    C在一个5个节点组成的Zookeeper集群中,如果同时有3台机器宕机,服务不受影响

    D如果客户端连接到Zookeeper集群中的那台机器突然宕机,客户端会自动切换连接到集群其他机器

  • 1. 数据库一般分关系型数据库和非关系型数据库。

    A

    B

  • 2. 聚类挖掘技术要求同类数据间内容相似度尽可能小,不同类数据间内容相似度尽可能大。

    A

    B

  • 3. 在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内部数据传输的基本单元。

    A

    B

  • 4. 使用get命令可以将HDFS文件系统下载到本地。

    A

    B

  • 5. 分区数量是ReduceTask的数量。

    A

    B

  • 6. 启动Hadoop集群服务之前需要格式化文件系统。

    A

    B

  • 7. Hadoop是由Java语言开发的。

    A

    B

  • 8. 把句子拆分成一个个词语的过程被称为分词。

    A

    B

  • 9. 从经济社会视角来看,大数据的重点在于“数据量大”。

    A

    B

  • 10. 在数据管理的组织架构中,第三层的各业务部门只具有数据提供权,不具有数据使用权。

    A

    B

  • 1. Hadoop是当前大数据平台的事实标准,下列对Hadoop的描述中正确的是:()

    AHadoop是一个由Apache基金会开发的分布式系统开源架构

    BHadoop的初始设计思路来源于Google发布的学术论文

    CHadoop在当前衍生出一系列优秀的开源项目,包括Hbase、Hive、Pig等

    DHadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架

  • 2. Impala主要由哪几个部分组成:( )

    AImpalad

    BStateStore

    CCLI

    DHive

  • 3. 下列关于HLog工作原理的描述,哪些是正确的?

    A分布式环境必须要考虑系统出错。HBase采用HLog保证

    BHBase系统为每个Region服务器配置了一个HLog文件

    CZookeeper会实时监测每个Region服务器的状态

    DMaster首先会处理该故障Region服务器上面遗留的HLog文件

  • 4. HDFS的命名空间包含什么?

    A磁盘

    B文件

    C

    D目录

  • 5. 云计算关键技术包括什么?

    A分布式存储

    B虚拟化

    C分布式计算

    D多租户

  • 6. 下列关于云数据库的描述,哪些是正确的?

    AAmazon是云数据库市场的先行者

    BGoogleCloudSQL是谷歌公司推出的基于MySQL的云数据库

    C从数据模型的角度来说,云数据库并非一种全新的数据库技术

    D云数据库并没有专属于自己的数据模型

  • 7. 针对大型图(比如社交网络和网络图)的计算问题,哪些说法是正确的?

    A为特定的图应用定制相应的分布式实现:通用性不好

    B基于现有的分布式计算平台进行图计算:在性能和易用性方面往往无法达到最优

    C使用单机的图算法库,但是,在可以解决的问题的规模方面具有很大的局限性

    D使用已有的并行图计算系统,但是,对大规模分布式系统非常重要的一些方面(比如容错),无法提供较好的支持

  • 8. Flink核心组件栈包括:()

    A物理部署层

    B算法库层

    CRuntime核心层

    DAPI&Libraries层

  • 9. 与HadoopMapReduce计算框架相比,Spark所采用的Executor具有哪些优点?

    A利用多线程来执行具体的任务,减少任务的启动开销

    BExecutor中有一个BlockManager存储模块,有效减少IO开销

    C提供了一种高度受限的共享内存模型

    D不同场景之间输入输出数据能做到无缝共享

  • 10. UMP系统架构设计遵循了以下哪些原则?

    A保持单一的系统对外入口,并且为系统内部维护单一的资源池

    B消除单点故障,保证服务的高可用性

    C保证系统具有良好的可伸缩,能够动态地增加、删减计算与存储节点

    D保证分配给用户的资源也是弹性可伸缩的