可做奥鹏院校所有作业,毕业论文,咨询请添加QQ:3230981406 微信:aopopenfd777
20秋学期(1709、1803、1809、1903、1909、2003、2009 )《大数据导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 30 分)
1.大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
2.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
3.数据产生方式变革中数据产生方式是自动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
4.下列哪个工具常用来开发移动友好地交互地图()
A.Leaflet
B.Visual.ly
C.BPizza Pie Charts
D.Gephi
5.医疗健康数据的基本情况不包括以下哪项?
A.诊疗数据
B.个人健康管理数据
C.公共安全数据
D.健康档案数据
6.数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
7.IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
8.哪个选项不属于大数据4V特点?
A.Volume
B.Valid
C.Variety
D.Value
9.第一个提出大数据概念的公司是( )。
A.麦肯锡公司
B.谷歌公司
C.微软公司
D.脸谱公司
10.MapReduce中的Map和Reduce函数使用()进行输入输出
A.key/value对
B.随机数值
C.其他计算结果
11.数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
12.以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
13.下列不属于Google云计算平台技术架构的是()
A.并行数据处理MapReduce
B.分布式锁Chubby
C.结构化数据表BigTable
D.弹性云计算EC2
14.下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
15.基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
二、多选题 (共 15 道试题,共 30 分)
16.大数据时代预测人类移动行为的数据特点是
A.多样化
B.数据量大
C.维数高
D.变化快
17.借助于大数据提供的##和##,政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A.消费能力
B.趋势报告
C.购物结果
18.关于R语言扩展包下列正确的是()
A.network可创建带有点和边的网络图
B.animation可制作一系列的图像并将它们串联起来做成动画
C.ggmaps通过树图来可视化层次型数据
D.protfolio基于谷歌地图、OpenStreetMap及其他地图的空间数据可视化工具
19.网络数据采集常用的是通过##或##等方式从网站上获取数据信息。
A.网络爬虫
B.网站公开API
C.手动获取
20.数据分析的类型根据数据分析深度可以分为()
A.描述性分析
B.预测性分析s
C.规则性分析
21.数据变换(Data Transformation)的方法有()
A.光滑
B.聚集
C.数据泛化
D.规范化
22.按照数据量的大小,可将数据分析分为()
A.内存级数据分析
B.Bl级数据分析
C.海量级数据分析
D.巨量级数据分析
23.可使用##,##,##进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
24.常见的分类方法有
A.决策树
B.贝叶斯网络
C.遗传算法
D.FP算法
25.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
26.大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
27.一个HDFS集群由一个##和##构成。此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。
A.一个名字节点
B.若干个名字节点
C.一个数据节点
D.若干个数据节点
28.主流分布式计算平台有()
A.google
B.IBM
C.baidu
D.Amazon
29.大数据存储的特点与挑战有()
A.容量问题
B.延迟问题
C.安全问题
D.成本问题
30.百度大数据引擎主要包含三大组件()
A.开放云
B.数据工厂
C.百度大脑。
三、判断题 (共 20 道试题,共 40 分)
31.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。
32.广播变量在广播后可以修改
33.内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。
34.云存储中用户需要按需付费并使用存储服务
35.云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
36.每个变量的最大值和最小值之差称为极差
37.数据变换(Data Transformation)就是把原始数据转化为适合于数据挖掘的数据形式
38.利用大数据技术对电子病历中的数字化信息进行分析处理,既能够让医生的诊疗有迹可循,还可以发现最有效的临床路径,从而及时为医生提供最佳的诊疗建议。
39.数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中
40.美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。
41.用一个函数拟合数据来光滑数据称为回归。
42.RDD是一种自定义的可并行数据容器,可以存放任意类型的数据
43.BI分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。
44.云存储是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等组成的复杂系统。
45.轨迹数据包含空间和时间属性,并且通常规模巨大且维度高
46.预测性分析(Predictive Analysis)用于预测未来事件发生的概率和演化趋势
47.数据存取和共享机制是大数据发展面临的挑战
48.21世纪时数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓宽了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
49.交通数据集通常包括空间和时间特性而且跨越大范围的时间空间。数据聚类可以有效的减小数据规模为随后的分析提供便利。
50.社交网络一一通常由通过一些特定类型的相互依赖关系(例如,亲属关系、友谊、共同兴趣、信念或金融交换)链接的社会实体(例如,个人、公司、集体社会单位或组织)组成。

