大数据工程技术人员考试题

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:364

试卷答案:没有

试卷介绍: 本站精心整理了大数据工程技术人员考试题,快来看看你的分数是多少吧。

开始答题

试卷预览

  • 1. MacOS系统的开发者是()。

    A微软公司

    B惠普公司

    C苹果公司

    DIBM公司

  • 2. 下列演示方式中,不属于传统统计图方式的是(  )。

    A柱形图

    B饼状图

    C曲线图

    D网络图

  • 3. 对于磁盘来说,所有盘片的第i个磁道合在一起成为以下哪个磁盘结构

    A第i个扇区

    B第i个磁头

    C第i个磁道

    D第i个柱面

  • 4. 向数据表中插入数据用哪一项()。

    ASELECT

    BINSERT

    CUPDATE

    DDELETE

  • 5. OLAP的操作涉及计算一个或多个维度的所有数据关系()。

    A上卷

    B下钻

    C切块

    D转轴

  • 6. 以下哪个不是Hive的用户接口模块:

    APMI

    BHWI(HiveWebInterface)

    CJDBC/ODBC

    DThriftServer

  • 7. 下列有关Hive和Impala的对比错误的是:

    AHive与Impala使用相同的元数据

    BHive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划

    CHive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

    DHive在内存不足以存储所有数据时,会使用外存,而Impala也是如此

  • 8. Hive表的数据默认存储与数据仓库目录(  )中。

    A/user/hive/warehouse

    B/opt/hive/warehouse

    C/opt/softwares/warehouse

    D/modules/hive/warehouse

  • 9. (  )使用目录节点树的方式(类似文件系统)存储数据,主要用途是维护和监听所存数据的状态变化,以实现对集群的管理。

    AZookeeper

    BHBase

    CHive

    DSqoop

  • 10. (  )是用来解决海量大数据文件存储问题的,是目前应用最广泛的分布式文件系统。

    AHDFS

    BHBase

    CHIve

    DKafka

  • 11. HDFS1.0默认BlockSize大小是多少。

    A32MB

    B64MB

    C128MB

    D256MB

  • 12. 下列关于数据交易市场的说法中,错误的是()

    A数据交易市场是大数据产业发展到一定程度的产物

    B商业化的数据交易活动催生了多方参与的第三方数据交市场

    C数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助

    D数据交易市场是大数据资源化的必然产物

  • 13. 下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?

    AGFS与HDFS相对应

    BGFS与Zookeeper相对应

    CMapReduce与Hadoop MapReduce相对应

    DChubby与Zookeeper相对应

  • 14. 在HDFS中,NameNode的主要功能是什么?

    A维护了blockid到datanode本地文件的映射关系

    B存储文件内容

    C文件内存保存在磁盘中

    D存储元数据

  • 15. 下面哪个不是Hadoop1.0的组件:

    AHDFS

    BMapReduce

    CYARN

    DNameNode和DataNode

  • 16. 下列关于Storm和Hadoop架构组件功能对应关系,哪个是错误的?

    AHadoopJob 对应 Storm Topology

    BHadoopTaskTracker对应 Storm Supervisor

    CHadoopJobTracker对应 Storm Spout

    DHadoopReduce对应 Storm Bolt

  • 17. 下列哪项不属于流计算的处理流程的三个阶段?

    A数据实时采集

    B数据批量采集

    C数据实时计算

    D实时查询服务

  • 18. 下列关于推荐系统的描述,哪一项是错误的?

    A推荐系统是大数据在互联网领域的典型应用

    B推荐系统是自动联系用户和物品的一种工具

    C推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

    D推荐系统分为基于物品的协同过滤和基于商家的协同过滤

  • 19. 下列哪个不是UMP系统中的角色?

    AController服务器

    BProxy服务器

    C愚公系统

    D阿斯隆服务器

  • 20. 写入数据到HDFS的Sink组件是(  )。

    AHive

    BHBase

    CHDFS

    DHadoop

  • 1. 数据增值以实际需求为导向,能为政府、企业、居民及公司解决实际问题

    A

    B

  • 2. 数据缺陷是指在数据治理过程中未按数据标准执行,产生了不符合数据治理规则、存在数据质量问题的数据。

    A

    B

  • 3. 边缘计算和云计算都是处理大数据的计算运行方式,但不同的是,在边缘计算技术中,数据不用全部传到云端,边缘侧也可以处理数据分析的工作,更适合工业现场实时的数据分析和智能化处理,也更加高效且安全。

    A

    B

  • 4. java和python都是面向对象的语言,都可以应用到大数据编程中。

    A

    B

  • 5. Hive基于Hadoop,安装Hive之前先安装好Hadoop。

    A

    B

  • 6. Hive的元数据存储在关系数据库中。

    A

    B

  • 7. 删除Hive外部表时,表数据也会删除。

    A

    B

  • 8. Hive默认不支持动态分区功能,需要手动设置动态分区参数开启功能。

    A

    B

  • 9. 网络爬虫可以爬取互联网上任意的网页。

    A

    B

  • 10. 一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点

    A

    B

  • 1. Zookeeper是一个很好的集群管理工具,被大量用于分布式计算,它主要提供什么服务?

    A配置维护

    B域名服务

    C分布式同步

    D负载均衡服务

  • 2. 下列关于数据模型的描述,哪些是正确的?

    AHBase采用表来组织数据,表由行和列组成,列划分为若干个列族

    B每个HBase表都由若干行组成,每个行由行键(row key)来标识

    C列族里的数据通过列限定符(或列)来定位

    D每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引

  • 3. HBase访问接口类型包括哪些?

    ANative Java API

    BHBase Shell

    CThrift Gateway

    DREST Gateway

  • 4. 大数据具有哪些特点?

    A数据的“大量化”

    B数据的“快速化”

    C数据的“多样化”

    D数据的“价值密度比较低”

  • 5. 下面关于NoSQL与关系数据库的比较,哪些是正确的?

    A关系数据库以完善的关系代数理论作为基础,有严格的标准

    B关系数据库可扩展性较差,无法较好支持海量数据存储

    CNoSQL可以支持超大规模数据存储

    DNoSQL数据库缺乏数学理论基础,复杂查询性能不高

  • 6. 下列关于文档数据库的描述,哪些是正确的?

    A性能好(高并发),灵活性高

    B具备统一的查询语法

    C文档数据库支持文档间的事务

    D复杂性低,数据结构灵活

  • 7. 下列关于推荐长尾理论的描述,哪些是正确的?

    A推荐系统可以创造全新的商业和经济模式,帮助实现长尾商品的销售

    B“长尾”概念于2004年提出,用来描述以亚马逊为代表的电子商务网站的商业和经济模式

    C可以通过发掘长尾商品并推荐给感兴趣的用户来提高销售额

    D热门推荐的主要缺陷在于推荐的范围有限,所推荐的内容在一定时期内也相对固定。无法实现长尾商品的推荐

  • 8. 在大数据时代,可视化技术可以支持实现哪些目标?

    A观测、跟踪数据

    B分析数据

    C辅助理解数据

    D增强数据吸引力

  • 9. 下列对于Pregel的执行过程,哪些是正确的?

    A选择集群中的多台机器执行图计算任务,每台机器上运行用户程序的一个副本

    BMaster把一个图分成多个分区,并把分区分配到多个Worker

    CMaster会把用户输入划分成多个部分,通常是基于文件边界进行划分

    DMaster向每个Worker发送指令,Worker收到指令后,开始运行一个超步

  • 10. Spark具有以下哪几个主要特点?

    A运行速度快

    B容易使用

    C通用性

    D运行模式单一