考试总分:100分
考试类型:模拟试题
作答时间:90分钟
已答人数:322
试卷答案:有
试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(二)的模拟试卷,快来进行练习吧。
A互联网
B物联网
C综合国力
D自然资源
A信息
B数字
C文字
D方位
A索引
B引用
C散列
D对应
ASQL-88
BSQL-92
CSQL:1999
DSQL:2003
AORDER BY
BORDERED BY
CGROUP BY
DGROUPED BY
AHive一般依赖于分布式文件系统HDFS,而传统数据库则依赖于本地文件系统
B传统的关系数据库可以针对多个列构建复杂的索引,Hive不支持索引
CHive和传统关系数据库都支持分区
D传统关系数据库很难实现横向扩展,Hive具有很好的水平扩展性
A先进先出调度器
B计算能力调度器
C公平调度器
D优先级调度器
A数据管理人员
B数据分析员
C研究科学家
D软件开发工程师
A在传统的数据处理流程中,存储的数据是旧的
B在传统的数据处理流程中,需要用户主动发出查询来获取结果
C传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
D流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务
A扩展性好,灵活性好
B大量写操作时性能高
C无法存储结构化信息
D条件查询效率高
A适合Hadoop MapReduce作业并行批处理HBase表数据
B适合HBase管理使用
C适合其他异构系统在线访问HBase表数据
D适合做数据统计
A数据挖掘
B离线分析
C实时计算
DBI分析
A收集业务需求
B建立数据仓库逻辑模型
C开发数据仓库的应用分析
D为用户和业务部门提供决策支持
A分类
B聚类
C关联分析
D隐马尔可夫链
A按需服务
B随时服务
C通用性
D价格不菲
A大数据魔镜是一款优秀的国产数据分析软件,可以让用户真正理解探索分析数据
BTableau是桌面系统中最简单的商业智能工具软件,是一个用于网页作图、生成互动图形的JavaScript函数库
CGoogle Fusion Tables让一般使用者也可以轻松制作出专业的统计地图
DModest Maps是一个小型、可扩展、交互式的免费库,提供了一套查看卫星地图的API
A该顶点的当前值
B一个接收到的消息的迭代器
C一个出射边的迭代器
D一个入射边的迭代器
A基于规则的报警
B实时查询索引构建
C移动应用中的产品更新及实验评估分析
D费者技术中的实时数据即席分析
ASpark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
B等线Spark在2014年打破了Hadoop保持的基准排序纪录
C等线Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
DSpark运行模式单一
A无论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是一致的
B从同一个客户端发起的事务请求,最终将会严格按照其发起顺序被应用到zookeeper中
C在一个5个节点组成的Zookeeper集群中,如果同时有3台机器宕机,服务不受影响
D如果客户端连接到Zookeeper集群中的那台机器突然宕机,客户端会自动切换连接到集群其他机器
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
AHadoop是一个由Apache基金会开发的分布式系统开源架构
BHadoop的初始设计思路来源于Google发布的学术论文
CHadoop在当前衍生出一系列优秀的开源项目,包括Hbase、Hive、Pig等
DHadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架
AImpalad
BStateStore
CCLI
DHive
A分布式环境必须要考虑系统出错。HBase采用HLog保证
BHBase系统为每个Region服务器配置了一个HLog文件
CZookeeper会实时监测每个Region服务器的状态
DMaster首先会处理该故障Region服务器上面遗留的HLog文件
A磁盘
B文件
C块
D目录
A分布式存储
B虚拟化
C分布式计算
D多租户
AAmazon是云数据库市场的先行者
BGoogleCloudSQL是谷歌公司推出的基于MySQL的云数据库
C从数据模型的角度来说,云数据库并非一种全新的数据库技术
D云数据库并没有专属于自己的数据模型
A为特定的图应用定制相应的分布式实现:通用性不好
B基于现有的分布式计算平台进行图计算:在性能和易用性方面往往无法达到最优
C使用单机的图算法库,但是,在可以解决的问题的规模方面具有很大的局限性
D使用已有的并行图计算系统,但是,对大规模分布式系统非常重要的一些方面(比如容错),无法提供较好的支持
A物理部署层
B算法库层
CRuntime核心层
DAPI&Libraries层
A利用多线程来执行具体的任务,减少任务的启动开销
BExecutor中有一个BlockManager存储模块,有效减少IO开销
C提供了一种高度受限的共享内存模型
D不同场景之间输入输出数据能做到无缝共享
A保持单一的系统对外入口,并且为系统内部维护单一的资源池
B消除单点故障,保证服务的高可用性
C保证系统具有良好的可伸缩,能够动态地增加、删减计算与存储节点
D保证分配给用户的资源也是弹性可伸缩的