大数据工程技术人员考试题目及答案

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:432

试卷答案:没有

试卷介绍: 大数据工程技术人员考试题目及答案已经上线了,需要的朋友快来刷题吧。

开始答题

试卷预览

  • 1. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务()。

    A探索性数据分析

    B建模描述

    C预测建模

    D寻找模式和规则

  • 2. 随着数据科学家的崛起,( )的地位将发生动摇。

    A国家领导人

    B大型企业

    C行业专家和技术专家

    D职业经理人

  • 3. 金融机构最常使用的大数据应用场景中,大数据技术参与度最低的是()。

    A反欺诈

    B精准营销

    C基金定投

    D交易预警

  • 4. 以下哪个不是数据仓库的特性:

    A面向主题的

    B集成的

    C动态变化的

    D反映历史变化的

  • 5. 可以对大数据进行深度分析的平台工具是()

    A传统的机器学习和数据分析肛具

    B第二代机器学习工具

    C第二代机器学习工具

    D未来机器学习工具

  • 6. 下列哪一项说法是错误的?

    AUserCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品

    BItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品

    CItemCF算法的推荐更偏向社会化,而UserCF算法的推荐更偏向于个性化

    DItemCF算法倾向于推荐与用户已购买商品相似的商品,往往会出现多样性不足、推荐新颖度较低的问题

  • 7. MapReduce适用于(  )

    A任意应用程序

    B任意可以在Windows

    C可以串行处理的应用程序

    D可以并行处理的应用程序

  • 8. 下列关于数据可视化的描述,哪个是错误的?

    A数据可视化是指将大型数据集中的数据以图形图像形式表示

    B利用数据分析和开发工具发现其中未知信息的处理过程

    C数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示

    D将数据的各个属性值以一维数据的形式表示

  • 9. 关于HBase的三层结构中各层次的名称和作用的说法,哪个是错误的?

    AZookeeper文件记录了用户数据表的Region位置信息

    B-ROOT-表记录了.META.表的Region位置信息

    CMETA.表保存了HBase中所有用户数据表的Region位置信息

    DZookeeper文件记录了-ROOT-表的位置信息

  • 10. Hadoop框架中最核心的设计是什么?

    A为海量数据提供存储的HDFS和对数据进行计算的MapReduce

    B提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务

    CHadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中

    DHadoop被视为事实上的大数据处理标准

  • 11. 下列哪项不属于大数据的发展历程?

    A成熟期

    B萌芽期

    C大规模应用期

    D迷茫期

  • 12. 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大网点,这体现了大数据分析理念中的( )。

    A在数据基础上倾向于全体数据而不是抽样数据

    B在分析方法上更注重相关分析而不是因果分析

    C在分析效果上更追求效率而不是绝对精确

    D在数据规模上强调相对数据而不是绝对数据

  • 13. 根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。

    A数据管理人员

    B数据分析员

    C研究科学家

    D软件开发工程师

  • 14. 下列关于数据重组的说法中,错误的是()。

    A数据重组是数据的重新生产和重新采集

    B数据重组能够使数据焕发新的光芒

    C数据重组实现的关键在于多源数据融合和数据集成

    D数据重组有利于实现新颖的数据模式创新

  • 15. 在一个Worker中,它所管辖的分区的状态信息是保存在内存中的,下列哪一项不属于分区的状态信息?

    A顶点的当前值

    B消息队列

    C标志位

    D一个接收到的消息的迭代器

  • 16. 下列哪一项不属于每个超步的组件?

    A全局计算

    B局部计算

    C通讯

    D栅栏同步

  • 17. 以下哪个不属于事件驱动型应用?

    A反欺诈

    B异常检测

    C基于规则的报警

    D消费者技术中的实时数据即席分析

  • 18. Spark生态系统组件MLlib的应用场景是?

    A图结构数据的处理

    B基于历史数据的交互式查询

    C复杂的批量数据处理

    D基于历史数据的数据挖掘

  • 19. UMP系统是构建在一个大的集群之上的,下列哪一项不属于系统向用户提供的功能?

    A读写分离

    B分库分表

    C数据安全

    D资源合并

  • 20. Hive是建立在(  )之上的一个数据仓库

    AHDFS

    BMapReduce

    CHadoop

    DHBase

  • 1. 大数据可以分析与挖掘出之前人们不知道或者没有注意到的模式,可以从海量数据中发展趋势,虽然也有不精准的时候,但并不能因此而否定大数据挖掘的价值。

    A

    B

  • 2. 传统数据库的数据存在内部攻击或外部恶意篡改数据的风。

    A

    B

  • 3. 海量数据可以存储到hadoop集群中通过map和reduce技术计算数据得出结果。

    A

    B

  • 4. 在Hadoop HA中,Zookeeper集群为每个NameNode都分配了一个故障恢复控制器,该控制器用于监控NameNode的健康状态。

    A

    B

  • 5. 在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执行程序。

    A

    B

  • 6. SecondaryNameNode是NameNode的备份,可以有效解决Hadoop集群单点故障问题。

    A

    B

  • 7. 在搭建Hadoop集群时,需要为集群安装JDK环境变量。

    A

    B

  • 8. 在Hadoop1.x版本中,MapReduce程序是运行在Yarn集群之上。

    A

    B

  • 9. 数据建模就是使用数学模型对大数据进行分析,解决现实生活中问题。

    A

    B

  • 10. Linux 系统安全性好,所以可以使用任意账号进行登陆。

    A

    B

  • 1. 大数据是当前业界关注的焦点,下列对大数据的描述中正确的是:()

    A大数据(BigData)又称为巨量资料或海量资料

    B大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为对企业经营决策具有较高参考价值的资讯

    C“大数据”一词首次被提出是在2011年有关机构发布的研究报告——《大数据:创新、竞争和生产力的下一个新领域》之中

    D“大数据”并不是突然产生的概念,它是IT技术发展的必然产物

  • 2. 关于Hive与传统关系数据库的对比分析,下面描述正确的是:( )

    A在数据存储方面,Hive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统

    B在索引方面,传统的关系数据库可以针对多个列构建复杂的索引,大幅度提升数据查询性能,而Hive不像传统的关系型数据库那样有键的概念,它只能提供有限的索引功能

    C在分区方面,传统的数据库提供分区功能来改善大型表以及具有各种访问模式的表的可伸缩性、可管理性,以及提高数据库效率;Hive不支持分区功能

    D在执行引擎方面,传统的关系数据库依赖自身的执行引擎,而Hive则依赖于MapReduce、Tez和Spark等执行引擎

  • 3. 在每个超步中,Worker会对自己所管辖的分区中的每个顶点进行遍历,并调用顶点上的Compute()函数,在调用时,会把以下哪些参数传递进去?

    A该顶点的当前值

    B一个接收到的消息的迭代器

    C一个出射边的迭代器

    D标志位,用来标记顶点是否处于活跃状态

  • 4. 大数据对社会发展的影响有哪些?

    A大数据成为一种新的决策方式

    B大数据应用促进信息技术与各行业的深度融合

    C大数据开发推动新技术和新应用的不断涌现

    D大数据对社会发展没有产生积极影响

  • 5. 云计算的服务模式和类型主要包括哪三类?

    A软件即服务(SaaS)

    B平台即服务(PaaS)

    C基础设施即服务(IaaS)

    D数据采集即服务(DaaS)

  • 6. HBase与传统的关系数据库的区别主要体现在以下哪几个方面?

    A数据类型

    B数据操作

    C存储模式

    D数据维护

  • 7. 关系数据库引以为傲的两个关键特性(完善的事务机制和高效的查询机制),到了Web2.0时代却成了鸡肋,主要表现在以下哪几个方面?

    AWeb2.0网站系统通常不要求严格的数据库事务

    BWeb2.0网站系统基本上不用关系数据库来存储数据

    CWeb2.0并不要求严格的读写实时性

    DWeb2.0通常不包含大量复杂的SQL查询

  • 8. 一次等线BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过程包括一系列全局超步(所谓的超步就是计算中的一次迭代),每个超步主要包括哪些组件?

    A局部计算:每个参与的处理器都有自身的计算任务

    B通讯:处理器群相互交换数据

    C栅栏同步:当一个处理器遇到“路障”(或栅栏),会等到其他所有处理器完成它们的计算步骤

    D基于现有的分布式计算平台进行图计算

  • 9. 在实际应用中,大数据处理主要包括以下哪三个类型?

    A复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间

    B基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间

    C基于实时数据流的数据处理:通常时间跨度在数十秒到数分钟之间

    D基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间

  • 10. 当处理CAP的问题时,可以有哪几个明显的选择?

    ACA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P)

    BCP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A)

    CAP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C)

    DCAP:也就是同时兼顾可用性(A)、分区容忍性(P)和一致性(C),当时系统性能会下降很多