考试总分:100分
考试类型:模拟试题
作答时间:90分钟
已答人数:366
试卷答案:没有
试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(五)的模拟试卷,快来进行练习吧。
A匿名化
B信息模糊化
C个人隐私保护
D差别隐私
A他们无须再取得个人的明确同意,就可以对个人数据进行二次利用。
B数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任。
C数据使用者的责任不需要强制力规范就能确保履行到位。
D所有项目,管理者必须设立规章,规定数据使用者应如何评估风险.如何规避或减轻潜在伤害。
A告知与许可
B预测
C匿名化
D规模化
A大数据平台使用大量廉价的PC服务器构建集群,每个节点同时承担计算和存储的角色
B通过高冗余设计以及大规模的进行处理,大数据PC服务器集群的最终处理能力要远胜于小型机集群
C大数据软件架构采用分布式架构,集群中多节点的通信方式简单,功能定位明确,尽可能减少节点间的依赖
D为确保系统的高性能和高可靠性,大数据硬件平台会大量采用专用存储和专用高端服务器
A主存储器
B快闪存储器
C磁带存储
D磁盘存储
Aimport
Bexport
Coverwrite
Ddrop
A256M
B128M
C512M
D1024M
ASecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。
BHadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。
CVMware
DSSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。
A因果;相关
B相关;因果
C并列;相关
D因果;并列
A64MB
B32KB
C128KB
D16KB
A分布式并行编程模型
B流计算框架
CHadoop上的工作流管理系统
D提供分布式协调一致性服务
A互联网
B云计算
C大数据
D物联网
A浅层神经网络
BScala
C深度学习
DMapReduce
A数字城市
B物联网
C联网监控
D云计算
A多个数据集的总和价值等于单个数据集价值相加;
B由于数据的再利用,数据应该永久保存下去;
C相同数据多次用于相同或类似用途,其有效性会降低;
D数据只有开放价值才能得到真正释放。
A互联网金融打破了传统的观念和行为
B大数据存在泡沫
C大数据具有非常高的成本
D个人隐私泄露与信息安全担忧
A彼得·德鲁克
B舍恩伯格
C蒂姆·伯纳斯-李
D斯科特·布朗
A网络公司能够捕捉到用户在其网站上的所有行为
B用户离散的交互痕迹能够为企业提升服务质量提供参考
C数字轨迹用完即自动删除
D用户的隐私安全很难得以规范保护
AFieldsGrouping:广播发送,每一个Task都会收到所有的Tuple
BGlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中
CNonGrouping:不分组,和ShuffleGrouping类似,当前Task的执行会和它的被订阅者在同一个线程中执行
DDirectGrouping:直接分组,直接指定由某个Task来执行Tuple的处理
AFlume
BKafka
CZookeeper
DHive
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A对
B错
A在零售行业可利用大数据开展精准营销、产品推荐、顾客忠诚度分析等
B在金融行业可利用大数据开展智能决策、客户信用度分析、金融服务创新等
C在交通行业可利用大数据开展交通方案优化、最佳出行路线制定、突发事故处理等
D在互联网行业可利用大数据开展市场动态洞察、社交网络分析、互联网产品创新等'
A当用户向Hive输入一段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互工作来完成该操作
B命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行
C执行器通常的任务是启动一个或多个MapReduce任务,有时也不需要启动MapReduce任务
D执行器通常的任务一定会包含Map和Reduce操作
A数学与统计知识
B计算机相关知识
C马克思主义哲学知识
D市场运营管理知识
E在特定业务领域的知识
A大数据具有体量大、结构单一、时效性强的特征
B处理大数据需采用新型计算架构和智能算法等新技术
C大数据的应用注重相关分析而不是因果分析
D大数据的应用注重因果分析而不是相关分析
E大数据的目的在于发现新的知识与洞察并进行科学决策
A兼容廉价的硬件设备
B流数据读写
C大数据集
D复杂的文件模型
AStandalone(类似于MapReduce1.0,slot为资源分配单位)
BSpark on Mesos(和Spark有血缘关系,更好支持Mesos)
CSpark on YARN
DSpark on HDFS
A格式不规范
B编码不统一
C意义不明确
D与实际业务关系不大
E数据不完整
AHadoop擅长批处理,不适合流计算
BMapReduce是专门面向静态数据的批量处理的
CHadoop设计的初衷是面向大规模数据的批量处理
DMapReduce不适合用于处理持续到达的动态数据
A批量计算:充裕时间处理静态数据,如Hadoop
B静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模
C流数据必须采用实时计算
D流数据的响应时间一般为秒级,甚至需要毫秒级
A常常表现出比较差的内存访问局部性
B针对单个顶点的处理工作过少
C计算过程中伴随着并行度的改变
D计算过程简易