大数据工程技术人员试卷及答案

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:492

试卷答案:没有

试卷介绍: 大数据工程技术人员试卷及答案包含众多的考试题,快来进行考前冲刺练习吧。

开始答题

试卷预览

  • 1. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )

    A频繁模式挖掘

    B分类和预测

    C数据预处理

    D数据流挖掘

  • 2. 客户端首次查询HBase数据库时,首先需要从哪个表开始查找。

    A.META.

    B–ROOT-

    C用户表

    D信息表

  • 3. 基于态度的情感分析不包括()。

    A态度的持有者

    B态度的目标

    C态度的类型

    D态度的原因

  • 4. 下列哪一个不是在描述表达式{t | P(t)}的安全性()。

    A可以生成无限关系的元组演算表达式

    B确保表达式安全性的表达式集

    C防止生成出无限关系

    D元组t的每个分量都出现在P的关系、元组或者常量之中

  • 5. 实体集和关系集的关系模式说法不正确的是()。

    A实体集和关系集可以统一的用关系模式来表示数据库的内容

    B每个实体集和关系集,模式不唯一

    C符合实体-关系图的数据库可以由模式集合表示

    D每个关系模式都有许多列(通常对应于属性),它们具有唯一的名称

  • 6. 从大量数据中提取知识的过程通常称为(  )

    A数据挖掘

    B人工智能

    C数据清洗

    D数据仓库

  • 7. 大数据的4V特征中的Volume是指(  )。

    A价值密度低

    B处理速度快

    C数据类型繁多

    D数据体量巨大

  • 8. 下列关于普查的缺点的说法中,正确的是(  )。

    A工作量较大,容易导致调查内容有限、产生重复和遗漏现象

    B误差不易被控制

    C对样本的依赖性比较强

    D评测结果不够稳定

  • 9. Zookeeper启动时会最多监听几个端口(  )

    A1

    B2

    C3

    D4

  • 10. 调用Zookeeper对象创建的节点,不包括(  )。

    A持久节点

    B临时节点

    C持久顺序节点

    DDataNode节点

  • 11. 在 hadoop 配置中 yarn-site.xml 作用是(  )

    A用于定义系统级别的参数

    B用于名称节点和数据节点的存放位置

    C用于配置

    D配置

  • 12. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。

    AMax

    BMin

    CCount

    DAverage

  • 13. 下列国家的大数据发展行动中,视大数据为新的自然资源的国家是()

    A中国

    B韩国

    C印度

    D新加坡

  • 14. 数据仓库的最终目的是()

    A收集业务需求

    B建立数据仓库逻辑模型

    C开发数据的应用分析

    D为用户和业务部门提供决策支持

  • 15. 相比依赖于小数据和精确性的时代,大数据因为更强调数据的( ),帮助我们进一步接近事实的真相。

    A安全性

    B完整性

    C混杂性

    D完整性和混杂性

  • 16. 数据清洗的方法不包括()。

    A缺失值处理

    B噪声数据清除

    C一致性检查

    D重复数据记录处理

  • 17. 下列关于NoSQL与关系数据库的比较,哪个说法是错误的?

    A在一致性方面,RDBMS强于NoSQL

    B在数据完整性方面,RDBMS容易实现

    C在扩展性方面,NoSQL 比较好

    D在可用性方面,NoSQL优于RDBMS

  • 18. 下列关于PageRank算法在MapReduce中的实现的描述,错误的是?

    A解析网页的任务就是分析一个页面的链接数,但是不赋初值

    BPageRank分配就是多次迭代计算页面的PageRank值

    C收敛阶段的任务就是由一个非并行组件决定是否达到收敛

    D一般判断是否收敛的条件是所有网页的PageRank值不再变化,或者运行30次以后我们就认为已经收敛了

  • 19. 下列哪项不属于在Vetex类中的值类型参数?

    A顶点的出度

    B顶点

    C

    D消息

  • 20. 下列哪个说法是错误的?

    A从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology)

    BSpark Streaming可以实现毫秒级的流计算

    CSpark Streaming无法实现毫秒级的流计算

    D在Spark上可以统一部署Spark SQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的一体化编程模型

  • 1. 数据资源目录中,我们不仅可以完成数据资源的查询,也可以获得想要的数据

    A

    B

  • 2. Linux操作中,尽量少使用root用户登陆,减少风险。

    A

    B

  • 3. 数据建模必须要有大量数据和数学算法才能得到结果,调整算法会影响最终的结果。

    A

    B

  • 4. ClouderaCDH是需要付费使用的。

    A

    B

  • 5. Flume不提供数据存储功能而是侧重于数据采集和传输。

    A

    B

  • 1. Hadoop的特性包括哪些?

    A高可扩展性

    B支持多种编程语言

    C成本低

    D运行在Linux平台上

  • 2. 一个基本的Hadoop集群中的节点主要包括什么?

    ADataNode:存储被拆分的数据块

    BJobTracker:协调数据计算任务

    CTaskTracker:负责执行由JobTracker指派的任务

    DSecondaryNameNode:帮助NameNode收集文件系统运行的状态信息

  • 3. 下列关于Hadoop的描述,哪些是错误的?

    A只能支持一种编程语言

    B具有较差的跨平台特性

    C可以部署在廉价的计算机集群中

    D曾经被公认为行业大数据标准开源软件

  • 4. 下列关于云数据库与其他数据库的关系,哪些是正确的?

    A从数据模型的角度来说,云数据库并非一种全新的数据库技术

    B云数据库并没有专属于自己的数据模型,云数据库所采用的数据模型可以是关系数据库所使用的关系模型

    C同一个公司只能提供采用不同数据模型的单个云数据库服务

    D许多公司在开发云数据库时,后端数据库都是直接使用现有的各种关系数据库或NoSQL数据库产品

  • 5. Flink编程模型包括哪几层:()

    ASQL

    BTable API

    CDataStream API / DataSet API

    D有状态数据流处理

  • 6. 针对大型图的计算,目前通用的图计算软件主要哪些?

    A基于遍历算法的、实时的图数据库,如Neo4j、OrientDB、DEX和InfiniteGraph

    B以图顶点为中心的、基于消息传递批处理的并行引擎,如GoldenOrb、Giraph、Pregel和Hama

    C基于遍历算法的、实时的图数据库,如GoldenOrb、Giraph、Pregel和Hama

    D以图顶点为中心的、基于消息传递批处理的并行引擎,如Neo4j、OrientDB、DEX和Infinite Graph

  • 7. 对于一个流计算系统来说,它应达到以下哪些需求?

    A高性能:处理大数据的基本要求,如每秒处理几十万条数据

    B实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别

    C分布式:支持大数据的基本架构,必须能够平滑扩展

    D可靠性:能可靠地处理流数据

  • 8. Storm具有以下哪些特点?

    A整合性:Storm可方便地与队列系统和数据库系统进行整合

    B简易的API:Storm的API在使用上即简单又方便

    C容错性:Storm可自动进行故障节点的重启、任务的重新分配

    D可扩展性:Storm的并行特性使其可以运行在分布式集群中

  • 9. 目前,Storm中的StreamGroupings有如下哪几种方式?

    AAllGrouping:广播发送,每一个Task都会收到所有的Tuple

    BGlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中

    CFieldsGrouping:按照字段分组,保证相同字段的Tuple分配到同一个Task中

    DDirectGrouping:随机分组,随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致

  • 10. 下面说法选项错误的是(  )

    A在一个Agent中,同一个source可以有多个channel

    B在一个Agent中,同一个sink可以有多个channel

    C在一个Agent中,同一个source只能多1个channel

    D在一个Agent中,同一个sink只能有1个channel