考试总分:100分
考试类型:模拟试题
作答时间:90分钟
已答人数:180
试卷答案:没有
试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(四)的模拟试卷,快来进行练习吧。
A收集数据很简单
B数据是最核心的部分
C对数据的分析技术和技能是最重要的
D数据非常重要,一定要很好的保护起来,防止泄露
A随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴;
B无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的;
C数据的价值可以通过授权的第三方使用来实现
D目前可以通过数据估值模型来准确的评估数据的价值评估
A一定会导致信息冗余
B可能会导致信息冗余
C增强数据一致性
D增强数据完整性
A计算机出现故障
B事务本身失败
C多个事务并行
D以上都是
A线性时间
B多项式时间
C指数时间
D阶乘时间
A较低恢复性
B容错性
C快速查询
D可处理大量数据
AJobTracker
BTaskTracker
CNodeManager
DNameNode
Aget
Bdelete
CzkCli.sh
Dls
AreadFields()
BcompareTo()
Cmap()
Dreduce()
ANamenode,Datanode,TaskTracker
BNamenode,Datanode,secondaryNameNode
CNamenode,Datanode,HMaster
DNamenode,JobTracker,secondaryNameNode
ANameNode
BJobtracker
CDatanode
DsecondaryNameNode
AHBase采用了更加简单的数据模型,它把数据存储为未经解释的字符串
BHBase操作不存在复杂的表与表之间的关系
CHBase不支持修改操作
DHBase在设计上就避免了复杂的表和表之间的关系
A把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
B用于在Hadoop与传统数据库之间进行数据传递
C一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
D一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据
A可扩展性高
B只支持少数几种编程语言
C成本低
D能在linux上运行
A操作系统和围绕特定应用的必需的服务
B将基础设施(计算资源和存储)作为服务出租
C从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型
D提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务
A灵活的可扩展性
B灵活的数据模型
C与云计算紧密融合
D数据存储规模有限
A具有较差的水平可扩展性
B设置个别属性的索引来实现更快的排序
C提供了一个面向文档存储,操作复杂
D可以实现替换完成的文档(数据)或者一些指定的数据字段
A在数据基础上倾向于全体数据而不是抽样数据
B在分析方法上更注重相关分析而不是因果分析
C在分析效果上更追求效率而不是绝对精确
D在数据规模上强调相对数据而不是绝对数据
AUserCF算法的推荐更偏向社会化:适合应用于新闻推荐、微博话题推荐等应用场景,其推荐结果在新颖性方面有一定的优势
BItemCF算法的推荐更偏向于个性化
CItemCF随着用户数目的增大,用户相似度计算复杂度越来越高
DUserCF推荐结果相关性较弱,难以对推荐结果作出解释,容易受大众影响而推荐热门物品
ADouble—Number
BBigInt—Double
CInt—BigInt
DString--Double
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A库函数:链接到每个客户端
B一个Master主服务器
C许多个Region服务器
D廉价的计算机集群
A加快数据传输速度
B容易检查数据错误
C保证数据可靠性
D适合多平台上运行
A命名空间的限制
B性能的瓶颈
C隔离问题
D集群的可用性
A识别和感知技术
B网络与通信技术
C数据挖掘与融合技术
D信息处理一体化技术
A谷歌公司的制图服务接口Google Chart API,可以用来为统计数据并自动生成图片
BD3是最流行的可视化库之一,是一个用于网页作图、生成互动图形的JavaScript函数库
CECharts是由百度公司前端数据可视化团队研发的图表库,可以流畅地运行在PC和移动设备上
D大数据魔镜是一款优秀的国产数据分析软件,它丰富的数据公式和算法可以让用户真正理解探索分析数据
A顶点的当前值
B以该顶点为起点的出射边列表,每条出射边包含了目标顶点ID和边的值
C消息队列,包含了所有接收到的、发送给该顶点的消息
D标志位,用来标记顶点是否处于活跃状态
AJobManager
BJobTrackder
CTaskTracker
DTaskManager
A同时支持高吞吐、低延迟、高性能
B同时支持流处理和批处理
C支持有状态计算
D具有独立的内存管理
A表达能力有限
B磁盘IO开销大
C延迟高
D在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务
A属于关系型数据库:支持使用TSQL来管理、创建和操作云数据库
B支持存储过程:它的数据类型、存储过程和传统的SQLServer具有很大的相似性
C支持大量数据类型
D支持云中的事务:支持局部事务,但是不支持分布式事务