大数据工程技术人员试题及答案(一)

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:539

试卷答案:没有

试卷介绍: 本站为大家带来了大数据工程技术人员试题及答案(一)的模拟试卷,快来进行练习吧。

开始答题

试卷预览

  • 1. 智能健康手环的应用开发,体现了( )的数据采集技术的应用。

    A统计报表

    B网络爬虫

    CAPI 接口

    D传感器

  • 2. 大数据处理技术和传统的数据挖掘技术最大的区别是(  )。

    A处理速度快(秒级定律)

    B算法种类更多

    C精度更高

    D更加智能化

  • 3. 在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任。

    A数据使用者

    B数据提供者

    C个人许可

    D数据分析者

  • 4. 大数据公司的多样性表明了( )

    A数据作用的体现

    B数据价值的转移

    C数据技术的发展

    D数据思维的创新

  • 5. 下列对大数据的技术特点的描述中错误的是:

    A总体而言,大数据技术的重要特点是简单与大规模

    B为了提升大数据处理效能,大数据技术在本质上放弃了一些数据处理的要求

    C大数据技术能够同时满足一致性、分区容忍性以及可用性要求

    D大数据技术通常会牺牲一致性要求很高的事务处理(多个操作的组合),仅提供最简单的读/写来达到超大规模的存储和访问能力

  • 6. 金融大数据面对的挑战不包括()。

    A如何提高金融数据质量

    B如何整理分散在多个数据系统中的金融行业数据

    C金融行业数据来源丰富,如何统一数据格式

    D如何满足用户数据安全和信息保护方面的要求

  • 7. 智慧城市的智慧之源是()

    A数字城市

    B物联网

    C大数据

    D云计算

  • 8. Hadoop2.x版本中的数据块大小默认是多少? (  )

    A64M

    B128M

    C256M

    D512M

  • 9. 下面哪项是Hadoop的作者?(  )

    AMartin

    BDoug

    CMark

    DKent

  • 10. 下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是()。

    A美国

    B日本

    C中国

    D韩国

  • 11. 下列关于Storm的描述,有误的是?

    AStorm将流数据Stream描述成一个有限的Tuple序列

    BStorm保证每个消息都能完整处理

    CStorm认为每个Stream都有一个源头,并把这个源头抽象为Spout

    DBolt可以执行过滤、函数操作、Join、操作数据库等任何操作

  • 12. HBase只有一个针对行健的索引,如果要访问HBase表中的行,下面哪种方式是不可行的?

    A通过单个行健访问

    B通过时间戳访问

    C通过一个行健的区间来访问

    D全表扫描

  • 13. HDFS采用了什么模型?

    A分层模型

    B主从结构模型

    C管道-过滤器模型

    D点对点模型

  • 14. 在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?

    A帮助NameNode收集文件系统运行的状态信息

    B负责执行由JobTracker指派的任务

    C协调数据计算任务

    D负责协调集群中的数据存储

  • 15. 大数据产业指什么?

    A一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合

    B提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业

    C提供数据分享平台、数据分析平台、数据租售平台等服务的企业

    D提供分布式计算、数据挖掘、统计分析等服务的各类企业

  • 16. 下列关于流计算的说法,哪项是错误的?

    A实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息

    B流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低

    C对于一个流计算系统来说,它应该支持TB级甚至是PB级的数据规模

    D流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题

  • 17. 下列哪一项不属于推荐算法?

    A基于物品和商家的联合协同推荐

    B基于统计的推荐

    C专家推荐

    D基于内容的推荐

  • 18. 下面描述错误的是:( )

    AStorm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态

    BSpark Streaming通过采用微批处理方法实现了高吞吐和容错性,但是牺牲了低延迟和实时处理能力

    CFlink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理

    DSpark Streaming可以实现毫秒级响应,而Flink只能实现秒级响应

  • 19. 在Spark生态系统组件的应用场景中,下列哪项说法是错误的?

    ASpark应用在复杂的批量数据处理

    BSparkSQL是基于历史数据的交互式查询

    CSparkStreaming是基于历史数据的数据挖掘

    DGraphX是图结构数据的处理

  • 20. 下列选项描述错误的是?(  )

    AHadoop HA即集群中包含Secondary NameNode作为备份节点存在。

    BResourceManager负责的是整个Yarn集群资源的监控、分配和管理工作

    CNodeManager负责定时的向ResourceManager汇报所在节点的资源使用情况以及接收并处理来自ApplicationMaster的启动停止容器( Container)的各种请求。

    D初次启动Hadoop HA集群时,需要将格式化文件系统后的目录拷贝至另外一台NameNode节点上。

  • 1. 通过数据共享机制,可以有效地降低数据采集成本,实现数据资源的重新整合,便捷地获取数据,从而也使得社会运行效率提高。

    A

    B

  • 2. 数据字典对数据的数据项、数据结构、数据流、数据存储、处理逻辑等进行定义和描述,其目的是对数据流程图中的各个元素做出详细的说明。

    A

    B

  • 3. 数据安全管理目标是通过数据全生命周期全过程安全管控,真正做到数据“事前可管、事中可控、事后可查”。

    A

    B

  • 4. hadoop支持数据的随机读写。

    A

    B

  • 5. Hive使用length()函数可以求出输出的数量。

    A

    B

  • 6. NodeManager是每个节点上的资源和任务管理器。

    A

    B

  • 7. NameNode本地磁盘保存了数据块的位置信息。

    A

    B

  • 8. python中没有异常处理语句,必须使用if eles来解决。

    A

    B

  • 9. 磁盘是集群的最主要瓶颈,是否正确?

    A

    B

  • 10. Hadoop 默认调度器策略为 FIFO。

    A

    B

  • 1. 关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?

    AHadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求上

    BHDFS面向批量访问模式,不是随机访问模式

    C传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题

    D传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间

  • 2. HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?

    A数据源太大

    B数据节点出错

    C数据出错

    D名称节点出错

  • 3. 下列哪一项不属于Hadoop的特性?

    A较低可扩展性

    B只支持java语言

    C成本低

    D运行在Linux平台上

  • 4. 第三次信息化浪潮的标志是哪些技术的兴起?

    A个人计算机

    B物联网

    C云计算

    D大数据

  • 5. 关系数据库已经无法满足Web2.0的需求,主要表现在以下几个方面?

    A无法满足海量数据的管理需求

    B无法满足数据高并发的需求

    C无法满足高可扩展性和高可用性的需求

    D使用难度高

  • 6. UMP系统架构依赖的哪些开源组件?

    AMnesia

    BLVS

    CRabbitMQ

    DZooKeeper

  • 7. 下列哪些属于大数据应用?

    A推荐系统:为用户推荐相关商品

    B物流:基于大数据和物联网技术的智能物流

    C智能交通:利用交通大数据,实现交通实时监控

    D汽车:无人驾驶汽车,实时采集车辆各种行驶数据和周围环境

  • 8. 下列说法正确的有?

    A在Pregel中,为了获得更好的性能,“标志位”和输入消息队列是分开保存的

    B在超步S中,当一个Worker在进行顶点处理时,用于当前超步的消息会被处理

    C需要两个消息队列用于存放作用于当前超步S的消息和作用于下一个超步S+1的消息

    D每个Worker上都保存了一个或多个分区的状态信息,当一个Worker发生故障时,它所负责维护的分区的当前状态信息就会丢失

  • 9. 在Pregel计算框架中,图的保存格式多种多样,具体包括哪些?

    A文本文件

    B关系数据库

    C键值数据库

    D语音文件

  • 10. 下列关于UMP系统架构的描述,哪些是正确的?

    A信息统计服务器定期将采集到的用户的连接数

    BWeb控制台无法向用户提供系统管理界面

    CLVS(LinuxVirtualServer)即Linux虚拟服务器

    DUMP系统借助于LVS来实现集群内部的负载均衡