大数据工程技术人员模拟试题

考试总分:100分

考试类型:模拟试题

作答时间:90分钟

已答人数:269

试卷答案:没有

试卷介绍: 想要更好的备考,大数据工程技术人员模拟试题非常适合进行日常练习。

开始答题

试卷预览

  • 1. 大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道( )

    A原因

    B是什么

    C关联物

    D预测的关键

  • 2. 大数据不是要教机器像人一样思考。相反,它是( )

    A把数学算法运用到海量的数据上来预测事情发生的可能性

    B被视为人工智能的一部分

    C被视为一种机器学习

    D预测与惩罚

  • 3. 学生在导师的指导下从事研究项目,关系project guide是几元关系()。

    A1

    B2

    C3

    D4

  • 4. 关于可串行化的说法不当的是()。

    A基本假设:一组事务的串行执行也保持数据库的一致性

    B如果一个并发调度与一个串行调度等价,则它是冲突可串行化的

    C包括冲突可串行化

    D包括观察可串行化

  • 5. 关于彭博终端说法不妥当的是()。

    A是一套计算机软件,也是金融资讯的代名词

    B用户可以直接使用终端进行交流

    C为专业人士提供实时金融市场数据和相关服务

    D仅能通过出售的彭博终端访问服务应用

  • 6. 下面关于Hive的描述错误的是:

    AHive是一个构建在Hadoop之上的数据仓库工具

    BHive是由Facebook公司开发的

    CHive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据

    DHive定义了简单的类似SQL的查询语言——HiveQL,它与大部分SQL语法无法兼容

  • 7. 当客户端需要读取HDFS中存储的文件时,首先向(  )发起读请求。

    ADataNode

    BNameNode

    CYarn

    DZookeeper

  • 8. 下面关于NoSQL和关系数据库的简单比较,哪个是错误的?

    ARDBMS有关系代数理论作为基础,NoSQL没有统一的理论基础

    BNoSQL很难实现横向扩展,RDBMS可以很容易通过添加更多设备来支持更大规模的数据

    CRDBMS需要定义数据库模式,严格遵守数据定义,NoSQL一般不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据

    DRDBMS借助于索引机制可以实现快速查询,很多NoSQL数据库没有面向复杂查询的索引

  • 9. 下面对FsImage的描述,哪个是错误的?

    AFsImage文件没有记录每个块存储在哪个数据节点

    BFsImage文件包含文件系统中所有目录和文件inode的序列化形式

    CFsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据

    DFsImage文件记录了每个块具体被存储在哪个数据节点

  • 10. 大数据的最显著特征是(  )。

    A数据规模大

    B数据类型多样

    C数据处理速度快

    D数据价值密度高

  • 11. 大数据是指不用随机分析法这样的捷径,而采用( )的方法。

    A所有数据

    B绝大部分数据

    C适量数据

    D少量数据

  • 12. 提供数据库定义、数据操纵、数据控制和数据库维护功能的软件称为()。

    AOS

    BDS

    CDBMS

    DDBS

  • 13. 设X={1,2,3}是频繁项集,则可由X产生__个关联规则()。

    A4

    B5

    C6

    D7

  • 14. 下列哪一个不属于云数据库产品?

    A本地安装MySQL

    B阿里云RDS

    COracleCloud

    D百度云数据库

  • 15. 下列关于计算机存储容量单位的说法中,错误的是()

    A1KB<1MB<1GB

    B基本单位是字节(Byte)

    C一个汉字需要一个字节的存储空间

    D一个字节能够容纳一个英文字符

  • 16. 下面关于Timetoast的描述,哪个是错误的?

    ATimetoast是在线创作基于时间轴事件记载服务的网站

    B提供个性化的时间线服务

    CTimetoast基于 flash 平台,可以在类似flash时间轴上任意加入事件

    DTimetoast是一个提供复杂统计图表的工具

  • 17. 下列哪个不属于PageRank算法在Pregel和MapReduce中实现方式的区别?

    APregel将PageRank处理对象看成是连通图,而MapReduce则将其看成是键值对

    BPregel将计算细化到顶点,同时在顶点内控制循环迭代次数

    CMapReduce将计算批量化处理,按任务进行循环迭代控制

    D图算法如果用Pregel实现,需要一系列的Pregel的调用

  • 18. Spark生态系统组件SparkStreaming的应用场景是?

    A基于历史数据的数据挖掘

    B图结构数据的处理

    C基于历史数据的交互式查询

    D基于实时数据流的数据处理

  • 19. 下列关于Scala特性的描述,错误的是哪一项?

    AScala语法复杂,但是能提供优雅的API计算

    BScala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统

    CScala兼容Java,运行速度快,且能融合到Hadoop生态圈中

    DScala是Spark的主要编程语言

  • 20. 下列语句描述错误的是(  )

    A可以通过CLI方式.Java

    BSqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进行数据的导入导出操作。

    CSqoop是独立的数据迁移工具,可以在任何系统上执行。

    D如果在Hadoop分布式集群环境下,连接MySQL服务器参数不能是localhost或127.0.0.1。

  • 1. 关系型数据库一般存储非结构化数据。

    A

    B

  • 2. 数据的分类按数据量由小至大依次为GB级、TB级、EB级、PB级.

    A

    B

  • 3. 数据仓库随时间的变化不断增加新的数据内容。

    A

    B

  • 4. Hive基于Hadoop,安装Hive之前先安装好Hadoop。三.选择题

    A

    B

  • 5. Sqoop导入指的是将数据从HDFS迁移到关系型数据库。

    A

    B

  • 6. Hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。

    A

    B

  • 7. 一个Sink可以对应多个Channel。

    A

    B

  • 8. JobTracker是HDFS重要角色。

    A

    B

  • 9. HDfS 中的 block 默认保存3分备份。

    A

    B

  • 10. 搭建hadloop开发环境必须搭建集群否则无法使用。

    A

    B

  • 1. 数据再利用的意义在于( )。

    A挖掘数据的潜在价值

    B实现数据重组的创新价值

    C利用数据可扩展性拓宽业务领域

    D优化存储设备,降低设备成本

    E提高社会效益,优化社会管理

  • 2. 下列关于计算机存储容量单位换算关系的公式中,正确的是()

    A1KB=1012Byte

    B1KB=1024Byte

    C1GB=1024KB

    D1GB=1012KB

    E1GB=1024MB

  • 3. 当前大数据技术的基础包括()

    A分布式文件系统

    B分布式并行计算

    C关系型数据库

    D分布式数据库

  • 4. 大数据的价值体现在()

    A大数据给思维方式带来了冲击

    B大数据为政策制定提供科学论据

    C大数据助力智慧城市提升公共服务水平

    D大数据实现了精准营销

    E大数据的发力点在于预测

  • 5. 可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作()

    A能够直观反映成对数据之间的空间关系

    B能够直观反映多维数据之间的空间关系

    C能够静态演化事物的变化及变化的规律

    D能够动态演化事物的变化及变化的规律

    E提供高性能并行计算技术的强力支撑

  • 6. 下列关于数据生命周期管理的核心认识中,正确的是()。

    A数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段

    B在不同的数据存在阶段,数据的价值是不同的

    C根据数据价值的不同应该对数据采取不同的管理策略

    D数据生命周期管理旨在产生效益的同时,降低生产成本

    E数据生命周期管理最终关注的是社会效益

  • 7. 云数据库具有以下哪些特性?

    A动态可扩展

    B高可用性

    C免维护

    D安全

  • 8. 下列关于流处理系统与传统的数据处理系统的描述,正确的有?

    A流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据

    B用户通过流处理系统获取的是实时结果,而通过传统的数据处理系统,获取的是过去某一时刻的结果

    C流处理系统无需用户主动发出查询,实时查询服务可以主动将结果推送给用户

    D传统的数据处理系统系统无需用户主动发出查询,批量查询服务可以主动将结果推送给用户

  • 9. 下列关于数据可视化的描述,正确的有?

    A数据可视化是指将大型数据集中的数据以图形图像形式表示

    B数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示

    C利用数据分析和开发工具发现其中未知信息的处理过程

    D将数据的各个属性值以一维数据的形式表示

  • 10. 企业数据架构的典型形式包括:( )

    A传统数据处理架构

    B大数据Lambda架构

    C流处理架构

    D循环处理架构