考试总分:100分
考试类型:模拟试题
作答时间:90分钟
已答人数:502
试卷答案:没有
试卷介绍: 大数据工程技术人员试卷及答案包含众多的考试题,快来进行考前冲刺练习吧。
A频繁模式挖掘
B分类和预测
C数据预处理
D数据流挖掘
A.META.
B–ROOT-
C用户表
D信息表
A态度的持有者
B态度的目标
C态度的类型
D态度的原因
A可以生成无限关系的元组演算表达式
B确保表达式安全性的表达式集
C防止生成出无限关系
D元组t的每个分量都出现在P的关系、元组或者常量之中
A实体集和关系集可以统一的用关系模式来表示数据库的内容
B每个实体集和关系集,模式不唯一
C符合实体-关系图的数据库可以由模式集合表示
D每个关系模式都有许多列(通常对应于属性),它们具有唯一的名称
A数据挖掘
B人工智能
C数据清洗
D数据仓库
A价值密度低
B处理速度快
C数据类型繁多
D数据体量巨大
A工作量较大,容易导致调查内容有限、产生重复和遗漏现象
B误差不易被控制
C对样本的依赖性比较强
D评测结果不够稳定
A1
B2
C3
D4
A持久节点
B临时节点
C持久顺序节点
DDataNode节点
A用于定义系统级别的参数
B用于名称节点和数据节点的存放位置
C用于配置
D配置
AMax
BMin
CCount
DAverage
A中国
B韩国
C印度
D新加坡
A收集业务需求
B建立数据仓库逻辑模型
C开发数据的应用分析
D为用户和业务部门提供决策支持
A安全性
B完整性
C混杂性
D完整性和混杂性
A缺失值处理
B噪声数据清除
C一致性检查
D重复数据记录处理
A在一致性方面,RDBMS强于NoSQL
B在数据完整性方面,RDBMS容易实现
C在扩展性方面,NoSQL 比较好
D在可用性方面,NoSQL优于RDBMS
A解析网页的任务就是分析一个页面的链接数,但是不赋初值
BPageRank分配就是多次迭代计算页面的PageRank值
C收敛阶段的任务就是由一个非并行组件决定是否达到收敛
D一般判断是否收敛的条件是所有网页的PageRank值不再变化,或者运行30次以后我们就认为已经收敛了
A顶点的出度
B顶点
C边
D消息
A从编程的灵活性来讲,Storm是比较理想的选择,它使用Apache Thrift,可以用任何编程语言来编写拓扑结构(Topology)
BSpark Streaming可以实现毫秒级的流计算
CSpark Streaming无法实现毫秒级的流计算
D在Spark上可以统一部署Spark SQL,SparkStreaming、MLlib,GraphX等组件,提供便捷的一体化编程模型
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A高可扩展性
B支持多种编程语言
C成本低
D运行在Linux平台上
ADataNode:存储被拆分的数据块
BJobTracker:协调数据计算任务
CTaskTracker:负责执行由JobTracker指派的任务
DSecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
A只能支持一种编程语言
B具有较差的跨平台特性
C可以部署在廉价的计算机集群中
D曾经被公认为行业大数据标准开源软件
A从数据模型的角度来说,云数据库并非一种全新的数据库技术
B云数据库并没有专属于自己的数据模型,云数据库所采用的数据模型可以是关系数据库所使用的关系模型
C同一个公司只能提供采用不同数据模型的单个云数据库服务
D许多公司在开发云数据库时,后端数据库都是直接使用现有的各种关系数据库或NoSQL数据库产品
ASQL
BTable API
CDataStream API / DataSet API
D有状态数据流处理
A基于遍历算法的、实时的图数据库,如Neo4j、OrientDB、DEX和InfiniteGraph
B以图顶点为中心的、基于消息传递批处理的并行引擎,如GoldenOrb、Giraph、Pregel和Hama
C基于遍历算法的、实时的图数据库,如GoldenOrb、Giraph、Pregel和Hama
D以图顶点为中心的、基于消息传递批处理的并行引擎,如Neo4j、OrientDB、DEX和Infinite Graph
A高性能:处理大数据的基本要求,如每秒处理几十万条数据
B实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别
C分布式:支持大数据的基本架构,必须能够平滑扩展
D可靠性:能可靠地处理流数据
A整合性:Storm可方便地与队列系统和数据库系统进行整合
B简易的API:Storm的API在使用上即简单又方便
C容错性:Storm可自动进行故障节点的重启、任务的重新分配
D可扩展性:Storm的并行特性使其可以运行在分布式集群中
AAllGrouping:广播发送,每一个Task都会收到所有的Tuple
BGlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中
CFieldsGrouping:按照字段分组,保证相同字段的Tuple分配到同一个Task中
DDirectGrouping:随机分组,随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致
A在一个Agent中,同一个source可以有多个channel
B在一个Agent中,同一个sink可以有多个channel
C在一个Agent中,同一个source只能多1个channel
D在一个Agent中,同一个sink只能有1个channel