大数据工程技术人员试题及答案(五)

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:347

试卷答案:没有

试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(五)的模拟试卷,快来进行练习吧。

开始答题

试卷预览

  • 1. 促进隐私保护的一种创新途径是( ):故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果。

    A匿名化

    B信息模糊化

    C个人隐私保护

    D差别隐私

  • 2. 对大数据使用进行正规评测及正确引导,可以为数据使用者带来什么切实的好处( )

    A他们无须再取得个人的明确同意,就可以对个人数据进行二次利用。

    B数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任。

    C数据使用者的责任不需要强制力规范就能确保履行到位。

    D所有项目,管理者必须设立规章,规定数据使用者应如何评估风险.如何规避或减轻潜在伤害。

  • 3. 大数据的核心就是( )。

    A告知与许可

    B预测

    C匿名化

    D规模化

  • 4. 下列对大数据平台软硬件系统架构的描述中错误的是:

    A大数据平台使用大量廉价的PC服务器构建集群,每个节点同时承担计算和存储的角色

    B通过高冗余设计以及大规模的进行处理,大数据PC服务器集群的最终处理能力要远胜于小型机集群

    C大数据软件架构采用分布式架构,集群中多节点的通信方式简单,功能定位明确,尽可能减少节点间的依赖

    D为确保系统的高性能和高可靠性,大数据硬件平台会大量采用专用存储和专用高端服务器

  • 5. 以下哪个存储介质是易丢失存储

    A主存储器

    B快闪存储器

    C磁带存储

    D磁盘存储

  • 6. 将关系型数据库中的数据导入到Hadoop平台的工具是(  )。

    Aimport

    Bexport

    Coverwrite

    Ddrop

  • 7. 在Hadoop2.x版本下,HDFS中的文件总是按照默认大小(  )被切分成不同的块,且备份3份。

    A256M

    B128M

    C512M

    D1024M

  • 8. 下列描述说法错误的是?(  )

    ASecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。

    BHadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。

    CVMware

    DSSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。

  • 9. 假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是()关系,而吸烟和肺癌则是()关系

    A因果;相关

    B相关;因果

    C并列;相关

    D因果;并列

  • 10. 在HDFS中,默认一个块多大?

    A64MB

    B32KB

    C128KB

    D16KB

  • 11. 在Hadoop项目结构中,MapReduce指的是什么?

    A分布式并行编程模型

    B流计算框架

    CHadoop上的工作流管理系统

    D提供分布式协调一致性服务

  • 12. 下列哪一个不属于第三次信息化浪潮中新兴的技术?

    A互联网

    B云计算

    C大数据

    D物联网

  • 13. 可以对大数据进行深度分析的工具是(  )。

    A浅层神经网络

    BScala

    C深度学习

    DMapReduce

  • 14. 智慧城市的构建,不包含(  )。

    A数字城市

    B物联网

    C联网监控

    D云计算

  • 15. 关于数据创新,下列说法正确的是( )

    A多个数据集的总和价值等于单个数据集价值相加;

    B由于数据的再利用,数据应该永久保存下去;

    C相同数据多次用于相同或类似用途,其有效性会降低;

    D数据只有开放价值才能得到真正释放。

  • 16. 下列论据中,能够支撑“大数据无所不能”的观点的是(  )。

    A互联网金融打破了传统的观念和行为

    B大数据存在泡沫

    C大数据具有非常高的成本

    D个人隐私泄露与信息安全担忧

  • 17. 万维网之父是()。

    A彼得德鲁克

    B舍恩伯格

    C蒂姆伯纳斯-李

    D斯科特布朗

  • 18. 下列关于网络用户行为的说法中,错误的是( )

    A网络公司能够捕捉到用户在其网站上的所有行为

    B用户离散的交互痕迹能够为企业提升服务质量提供参考

    C数字轨迹用完即自动删除

    D用户的隐私安全很难得以规范保护

  • 19. 下列哪个关于Stream Groupings的描述,有误的是?

    AFieldsGrouping:广播发送,每一个Task都会收到所有的Tuple

    BGlobalGrouping:全局分组,所有的Tuple都发送到同一个Task中

    CNonGrouping:不分组,和ShuffleGrouping类似,当前Task的执行会和它的被订阅者在同一个线程中执行

    DDirectGrouping:直接分组,直接指定由某个Task来执行Tuple的处理

  • 20. (  )是一个分布式的基于发布/订阅模式的消息队列。

    AFlume

    BKafka

    CZookeeper

    DHive

  • 1. 具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求

    A

    B

  • 2. 数据挖掘应用工具有很多,其中Python可以用于数据分析。

    A

    B

  • 3. 用以分析问题的概念、数学关系、逻辑关系和算法序列的表示体系称之为模型。

    A

    B

  • 4. 云计算核心就是本地无法解决的问题提交到计算机网络集群中运算,运用网络计算机的能力。

    A

    B

  • 5. Map阶段处理数据时,是按照Key的哈希值与ReduceTask数量取模进行分区的规则。

    A

    B

  • 6. Hadoop存在多个副本,且默认备份数量是3。

    A

    B

  • 7. 伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。

    A

    B

  • 8. 超市根据销售纪录发现,买啤酒的顾客有35%概率也会购买儿童尿布,这种属于数据挖掘的关联规则。

    A

    B

  • 9. 数据挖掘可以是很少的数据得到精确的结果,从而给出精准的决策。

    A

    B

  • 10. Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。

    A

    B

  • 1. 大数据已经在众多领域中被应用,下列对大数据应用案例的描述中正确的是:()

    A在零售行业可利用大数据开展精准营销、产品推荐、顾客忠诚度分析等

    B在金融行业可利用大数据开展智能决策、客户信用度分析、金融服务创新等

    C在交通行业可利用大数据开展交通方案优化、最佳出行路线制定、突发事故处理等

    D在互联网行业可利用大数据开展市场动态洞察、社交网络分析、互联网产品创新等'

  • 2. 当采用MapReduce作为Hive的执行引擎时,下面描述正确的是:( )

    A当用户向Hive输入一段命令或查询(即HiveQL语句)时,Hive需要与Hadoop交互工作来完成该操作

    B命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行

    C执行器通常的任务是启动一个或多个MapReduce任务,有时也不需要启动MapReduce任务

    D执行器通常的任务一定会包含Map和Reduce操作

  • 3. 大数据人才整体上需要具备()等核心知识。

    A数学与统计知识

    B计算机相关知识

    C马克思主义哲学知识

    D市场运营管理知识

    E在特定业务领域的知识

  • 4. 下列关于大数据的说法中,错误的是()。

    A大数据具有体量大、结构单一、时效性强的特征

    B处理大数据需采用新型计算架构和智能算法等新技术

    C大数据的应用注重相关分析而不是因果分析

    D大数据的应用注重因果分析而不是相关分析

    E大数据的目的在于发现新的知识与洞察并进行科学决策

  • 5. HDFS要实现以下哪几个目标?

    A兼容廉价的硬件设备

    B流数据读写

    C大数据集

    D复杂的文件模型

  • 6. Spark支持哪三种不同类型的部署方式?

    AStandalone(类似于MapReduce1.0,slot为资源分配单位)

    BSpark on Mesos(和Spark有血缘关系,更好支持Mesos)

    CSpark on YARN

    DSpark on HDFS

  • 7. 下列关于脏数据的说法中,正确的是()。

    A格式不规范

    B编码不统一

    C意义不明确

    D与实际业务关系不大

    E数据不完整

  • 8. 下列关于流计算与Hadoop的说法,正确的有?

    AHadoop擅长批处理,不适合流计算

    BMapReduce是专门面向静态数据的批量处理的

    CHadoop设计的初衷是面向大规模数据的批量处理

    DMapReduce不适合用于处理持续到达的动态数据

  • 9. 下列关于批量计算和实时计算的说法,正确的有?

    A批量计算:充裕时间处理静态数据,如Hadoop

    B静态数据不适合采用批量计算,因为它不适合用传统的关系模型建模

    C流数据必须采用实时计算

    D流数据的响应时间一般为秒级,甚至需要毫秒级

  • 10. 很多传统的图计算算法都存在以下哪些典型问题?

    A常常表现出比较差的内存访问局部性

    B针对单个顶点的处理工作过少

    C计算过程中伴随着并行度的改变

    D计算过程简易