大数据工程技术人员试题及答案(四)

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:180

试卷答案:没有

试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(四)的模拟试卷,快来进行练习吧。

开始答题

试卷预览

  • 1. 在大数据时代,下列说法正确的是( )。

    A收集数据很简单

    B数据是最核心的部分

    C对数据的分析技术和技能是最重要的

    D数据非常重要,一定要很好的保护起来,防止泄露

  • 2. 关于数据估值,下列说法错误的是( )

    A随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴;

    B无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的;

    C数据的价值可以通过授权的第三方使用来实现

    D目前可以通过数据估值模型来准确的评估数据的价值评估

  • 3. 关系设计中,如果采用更大的模式,则()。

    A一定会导致信息冗余

    B可能会导致信息冗余

    C增强数据一致性

    D增强数据完整性

  • 4. 事务需要面对的问题是()。

    A计算机出现故障

    B事务本身失败

    C多个事务并行

    D以上都是

  • 5. 寻找最佳连接顺序时,使用动态规划储存计算结果并将其重用,其优化的时间复杂度是()。

    A线性时间

    B多项式时间

    C指数时间

    D阶乘时间

  • 6. Hive最重视的性能是可测量性.延展性.(  )和对于输入格式的宽松匹配性

    A较低恢复性

    B容错性

    C快速查询

    D可处理大量数据

  • 7. 下列选项中那些是Hadoop2.x版本独有的进程(  )

    AJobTracker

    BTaskTracker

    CNodeManager

    DNameNode

  • 8. 客户端连接Zookeeper集群的命令是(  )。

    Aget

    Bdelete

    CzkCli.sh

    Dls

  • 9. MapReduce自定义排序规则需要重写下列那项方法(  )

    AreadFields()

    BcompareTo()

    Cmap()

    Dreduce()

  • 10. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?

    ANamenode,Datanode,TaskTracker

    BNamenode,Datanode,secondaryNameNode

    CNamenode,Datanode,HMaster

    DNamenode,JobTracker,secondaryNameNode

  • 11. 下面哪个程序负责HDFS数据存储。

    ANameNode

    BJobtracker

    CDatanode

    DsecondaryNameNode

  • 12. 在HBase中,关于数据操作的描述,下列哪一项是错误的?

    AHBase采用了更加简单的数据模型,它把数据存储为未经解释的字符串

    BHBase操作不存在复杂的表与表之间的关系

    CHBase不支持修改操作

    DHBase在设计上就避免了复杂的表和表之间的关系

  • 13. 分布式文件系统指的是什么?

    A把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群

    B用于在Hadoop与传统数据库之间进行数据传递

    C一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

    D一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

  • 14. 下面哪一项不是Hadoop的特性?

    A可扩展性高

    B只支持少数几种编程语言

    C成本低

    D能在linux上运行

  • 15. 云计算平台层(PaaS)指的是什么?

    A操作系统和围绕特定应用的必需的服务

    B将基础设施(计算资源和存储)作为服务出租

    C从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型

    D提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务

  • 16. 下列哪个不属于NoSQL数据库的特点?

    A灵活的可扩展性

    B灵活的数据模型

    C与云计算紧密融合

    D数据存储规模有限

  • 17. 下面关于MongoDB说法,哪一项是正确的?

    A具有较差的水平可扩展性

    B设置个别属性的索引来实现更快的排序

    C提供了一个面向文档存储,操作复杂

    D可以实现替换完成的文档(数据)或者一些指定的数据字段

  • 18. 下列关于大数据的分析理念的说法中,错误的是()

    A在数据基础上倾向于全体数据而不是抽样数据

    B在分析方法上更注重相关分析而不是因果分析

    C在分析效果上更追求效率而不是绝对精确

    D在数据规模上强调相对数据而不是绝对数据

  • 19. 下面关于UserCF算法和ItemCF算法的对比,哪个是错误的?

    AUserCF算法的推荐更偏向社会化:适合应用于新闻推荐、微博话题推荐等应用场景,其推荐结果在新颖性方面有一定的优势

    BItemCF算法的推荐更偏向于个性化

    CItemCF随着用户数目的增大,用户相似度计算复杂度越来越高

    DUserCF推荐结果相关性较弱,难以对推荐结果作出解释,容易受大众影响而推荐热门物品

  • 20. 以下选项中,哪种类型间的转换是被Hive查询语言所支持的(  )

    ADouble—Number

    BBigInt—Double

    CInt—BigInt

    DString--Double

  • 1. 对于大数据而言,最基本、最重要的要求就是减少错误,保证质量。因此,大数据收集的信息量要尽量精确。

    A

    B

  • 2. 人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其蕴含的价值,从而为人们的生产生活带来有益的改变。

    A

    B

  • 3. 在大数据的范畴内,应该把用户视为互联网中的数据分子,独立、细致地对其行为进行为特征,充分挖掘大数据的价值,变数据为资产。

    A

    B

  • 4. 数据认责明确了数据管理的参与部门及其责任,有助于数据治理工作落实到实处。

    A

    B

  • 5. 分布式和集群都是解决大数据解决方案。

    A

    B

  • 6. python中可以应用在大数据实时运算,java应用在大数据的推送。

    A

    B

  • 7. Kafka适用于实时性要求不高的场景。

    A

    B

  • 8. Zookeeper对节点的Watch监听通知是永久性的。

    A

    B

  • 9. hadoop是java编写的,所以只支持对java编程语言。

    A

    B

  • 10. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。

    A

    B

  • 1. HBase的实现包括哪三个主要的功能组件?

    A库函数:链接到每个客户端

    B一个Master主服务器

    C许多个Region服务器

    D廉价的计算机集群

  • 2. HDFS数据块多副本存储具备以下哪些优点?

    A加快数据传输速度

    B容易检查数据错误

    C保证数据可靠性

    D适合多平台上运行

  • 3. HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?

    A命名空间的限制

    B性能的瓶颈

    C隔离问题

    D集群的可用性

  • 4. 物联网的关键技术包括哪些?

    A识别和感知技术

    B网络与通信技术

    C数据挖掘与融合技术

    D信息处理一体化技术

  • 5. 信息图表是信息、数据、知识等的视觉化表达,下列哪个说法正确?

    A谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片

    BD3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库

    CECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上

    D大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据

  • 6. 在一个Worker中,它所管辖的分区的状态信息是保存在内存中的,分区中的顶点的状态信息包括?

    A顶点的当前值

    B以该顶点为起点的出射边列表,每条出射边包含了目标顶点ID和边的值

    C消息队列,包含了所有接收到的、发送给该顶点的消息

    D标志位,用来标记顶点是否处于活跃状态

  • 7. Flink系统主要由两个组件组成:()

    AJobManager

    BJobTrackder

    CTaskTracker

    DTaskManager

  • 8. Flink的优势包括:()

    A同时支持高吞吐、低延迟、高性能

    B同时支持流处理和批处理

    C支持有状态计算

    D具有独立的内存管理

  • 9. 下列哪些选项属于Hadoop的缺点?

    A表达能力有限

    B磁盘IO开销大

    C延迟高

    D在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务

  • 10. Microsoft的云数据库产品SQLAzure具有以下哪些特性?

    A属于关系型数据库:支持使用TSQL来管理、创建和操作云数据库

    B支持存储过程:它的数据类型、存储过程和传统的SQLServer具有很大的相似性

    C支持大量数据类型

    D支持云中的事务:支持局部事务,但是不支持分布式事务