南开21春学期《大数据开发技术（一）》在线作业（标准答案）-奥鹏学无忧教育辅导

可做奥鹏院校所有作业，毕业论文，咨询请添加QQ：3230981406 微信：aopopenfd777

21春学期（1709、1803、1809、1903、1909、2003、2009、2103）《大数据开发技术（一）》在线作业
试卷总分:100 得分:100
第1题,Map Task和Reduce Task均由()启动。
A、Client
B、Job Tracker
C、Task
D、Task Tracker
正确答案:

第2题,MongoDB将数据存储为一个()
A、关系
B、属性
C、字段
D、文档
正确答案:

第3题,MapReduce中最优的Reduce任务个数取决于集群中可用的()的数目。
A、Split
B、Slot
C、Map
D、Shuffle
正确答案:

第4题,Hbase中()文件记录了-ROOT-表的位置
A、Master
B、Region
C、Zookeeper
D、Chubby
正确答案:

答案来源：（www.）,BigTable采用()作为底层数据存储
A、HDFS
B、GFS
C、Hbase
D、传统文件系统
正确答案:

第6题,Hadoop启动所有进程的命令为()。
A、all-start.sh
B、all-start.exe
C、start-all.sh
D、start-all.exe
正确答案:

第7题,MapReduce处理关系的()运算时,Map过程需要记录元组的信息及该元组来源。
A、投影
B、差
C、交
D、并
正确答案:

第8题,Hbase中()是最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求
A、Master
B、Slaver
C、Regio服务器n
D、客户端
正确答案:

第9题,关于Strom中Bolt说法错误的是()。
A、Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
B、Bolt是一个被动的角色，Spout是一个主动的角色
C、Bolt不仅可以处理Tuple还可以创建新的Tuple
D、Bolt是Streams的状态转换过程的抽象含义
正确答案:

答案来源：（www.）,MapReduce设计的一个理念就是(),因为移动数据需要大量的网络传输开销。
A、数据向计算靠拢
B、计算向数据靠拢
C、计算向网络靠拢
D、计算与数据并行
正确答案:

第11题,在Storm的工作流程中,对于Supervisor说法错误的是()。
A、Supervisor会去Zookeeper集群上认领自己的Task
B、Supervisor节点首先将提交的Topology进行分片，分成一个个Task，分配给相应的Nimbus
C、Supervisor会将Task和相关的信息提交到Zookeeper集群上
D、Supervisor会通知自己的Worker进程进行Task的处理
正确答案:

答案来源：（www.）,Google Fusion Tables是哪种可视化工具()
A、信息图表
B、地图工具
C、时间线工具
D、分析工具
正确答案:

第13题,批处理系统关注(),流处理系统关注()。
A、吞吐率，延时
B、延时，吞吐率
C、延时，速度
D、速度，吞吐率
正确答案:

第14题,使用Amazon云环境部署Hadoop的说法中错误的是()。
A、Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中
B、Hadoop自带有一套脚本，用于在EC2上面运行Hadoop
C、在EC2上运行Hadoop尤其适用于一些工作流
D、Amazon EC2为Hadoop提供了存储服务
正确答案:

答案来源：（www.）,关于分布式并行编程,以下说法错误的是()。
A、"摩尔定律"，CPU性能大约每隔12个月翻一番
B、"摩尔定律"逐渐失效后，人们开始借助于分布式并行编程来提高程序性能
C、分布式程序运行在大规模计算机集群上，可以并行执行大规模数据处理任务，从而获得海量的计算能力
D、谷歌公司最先提出了分布式并行编程模型MapReduce
正确答案:

第16题,静态数据采取()计算模式
A、批量
B、实时
C、大数据
D、动态
正确答案:

第17题,优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活
提供嵌入式文档功能的数据库是()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:

第18题,关于MapReduce中Shuffle过程,说法错误的是()。
A、Shuffle过程中为每个Map任务分配一个缓存
B、Shuffle过程中分区默认采用哈希函数
C、Shulle过程的合并会改变最终结果
D、Shuffle过程在Reduce端首先从Map端领取结果，然后执行归并操作，最后输送给Reduce任务进行处理。
正确答案:

第19题,Storm中如果要随机分发Stream中的Tuple,保证每个Bolt的Task接收Tuple数量大致一致,应该采用哪种Stream Groupings()。
A、ShuffleGrouping
B、AllGrouping
C、GlobalGrouping
D、FiedlsGrouping
正确答案:

答案来源：（www.）,SQL Azure体系结构层中哪层将用户的请求转化为Azure内部的TDS格式流
A、Client Layer
B、Services Layer
C、Platform Layer
D、Infrastructure Layer
正确答案:

第21题,优点是查找速度快,可扩展性强,容易进行分布式扩展,复杂性低的数据库是()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:

第22题,应用于专门用于处理具有高度相互关联关系的数据,比较适合于社交网络的数据库是哪种()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:

第23题,Storm中如果要保证相同字段的Tuple分配到同一个Task中,应该采用哪种Stream Groupings()。
A、ShuffleGrouping
B、AllGrouping
C、GlobalGrouping
D、FiedlsGrouping
正确答案:

第24题,应用于分布式数据存储与管理
数据在地理上分布于多个数据中心的应用程序的数据库是哪种()
A、列族数据库
B、键值数据库
C、图数据库
D、文档数据库
正确答案:

答案来源：（www.）,1秒定律体现了大数据的哪个特征()。
A、数据量大
B、数据产生速度快
C、数据存储快
D、数据计算快
正确答案:

第26题,SQL Azure体系结构层中哪层是存储节点集群,相当于普通Web系统的数据库层
A、Client Layer
B、Services Layer
C、Platform Layer
D、Infrastructure Layer
正确答案:

第27题,Gephi是哪种可视化工具()
A、信息图表
B、地图工具
C、时间线工具
D、分析工具
正确答案:

第28题,以下亚马逊的产品中哪个是分布式内存缓存
A、ElastiCache
B、RDS
C、DynamoDB
D、Redshift
正确答案:

第29题,Hadoop中执行MapReduce任务不含哪种方式()。
A、Mahout
B、Hadoop jar
C、Shell脚本
D、Python
正确答案:

答案来源：（www.）,以下说法不正确的是()。
A、MapReduce的核心思想就是"分面治之"
B、HDFS是对GFS的开源实现
C、MapReduce是一种分布式计算模型
D、HDFS采用HBase作为其底层数据存储
正确答案:

第31题,关系数据库与NoSQL数据库相比有哪些优势()
A、支持事务ACID四性
B、可以支持超大规模数据存储
C、以完善的关系代数理论作为基础
D、具有强大的横向扩展能力
正确答案:,C

第32题,MapReduce可以解决哪些计算问题()。
A、矩阵乘法
B、关系代数运算
C、聚合运算
D、关系投影运算
正确答案:,B,C,D

第33题,关系数据库与NoSQL数据库相比适用于哪些领域()
A、电信
B、银行
C、互联网企业大数据处理
D、传统企业的数据分析
正确答案:,B

第34题,HDFS的命名空间包含()
A、节点
B、目录
C、文件
D、块
正确答案:,C,D

第35题,MapReduce的main函数中设置输出类型的方法有()。
A、setOutputKeyClass
B、setOutputClass
C、setOutputValueClass
D、setKeyValueClass
正确答案:,C

第36题,Hadoop在配置伪分布式时需要修改哪几个配置文件()。
A、hbase-site.xml
B、hdfs-site.xml
C、core-site.xml
D、map-site.xml
E、mapr-site.xml
正确答案:,C

第37题,哪些属于数据可视化的重要作用()
A、分析数据
B、采集数据
C、辅助理解数据
D、观测跟踪数据
正确答案:

第38题,以下哪些是数据可视化时间线工具()
A、Echarts
B、Timetoast
C、Xtimeline
D、R
正确答案:

第39题,流计算是针对流数据的实时计算,可以应用在()场景中
A、广告投放
B、气候模拟预测
C、机器翻译
D、推荐系统
正确答案:

第40题,传统的数据处理流程的前提是()。
A、存储的数据是旧的
B、存储的数据是实时的
C、需要用户主动发出查询
D、不需要用户主动发出查询
正确答案:,C

第41题,Pig是Hadoop项目中一种数据仓库工具。
T、对
F、错
正确答案:F

第42题,阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等
T、对
F、错
更多答案下载：（www.）

第43题,HDFS中的NameNode的EditLog用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
T、对
F、错
正确答案:F

第44题,Storm框架是实时计算系统,所以不能使用数据库。
T、对
F、错
正确答案:

第45题,关系数据库的关键特性包括完善的事务机制和高效的查询机制
T、对
F、错
更多答案下载：（www.）

第46题,大数据计算处理方法主要分为两种方法,即批处理方法和流处理方法。
T、对
F、错
正确答案:

第47题,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。
T、对
F、错
正确答案:

第48题,Hbase中缓存刷新,每次刷写都生成一个新的StoreFile文件,因此,每个Store包含多个StoreFile文件
T、对
F、错
更多答案下载：（www.）

第49题,在HBase中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在
T、对
F、错
正确答案:F

答案来源：（www.）,HDFS 在设计上采取了多种机制保证在硬件出错的环境中实现数据的完整性。
T、对
F、错
正确答案:

微信客服扫一扫