《数据分析》20春期末考核
一、单选题 (共 20 道试题,共 20 分)
1.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
正确答案:
2.潜在语义分析中,以()表示文本的语义内容
A.话题
B.话题向量
C.语义向量
D.距离向量
正确答案:
3.聚类属于()
A.有监督学习
B.无监督学习
C.强化学习
D.对抗学习
正确答案:
4.特征空间中两个实例点的()是两个实例点相似程度的反映。
A.关联性
B.向量值
C.距离
正确答案:
5.闵式距离参数是()时代表曼哈顿距离
A.0
B.1
C.2
D.无穷
正确答案:
6.在文本信息处理系统中,所处理的原始数据是()
A.结构化的自然语言文本
B.非结构化的自然语言文本
C.非结构化的编码
D.结构化的编码
正确答案:
7.逻辑斯谛函数是一条()曲线
A.抛物线
B.三角函数
C.S型曲线
D.直线
正确答案:
8.聚类过程为()
A.数据准备,特征选择,特征提取,聚类,结果评估
B.数据准备,特征提取,特征选择,聚类,结果评估
C.数据准备,特征提取,聚类,特征选择,结果评估
正确答案:
9.评价分类器效果时,表示将正类样本预测为正类数与总预测为正类数之比的指标是()。
A.准确率
B.精确率
C.召回率
D.F1值
正确答案:
10.KNN算法用MapReduce实现,要进行几轮MapReduce()
A.1
B.2
C.3
D.4
正确答案:
11.在估计PLSA生成模型的参数时,使用()
A.极大似然估计
B.对数似然函数
C.特征独立假设
D.贝叶斯定理
正确答案:
12.LDA导入先验分布是为了应对()现象
A.欠拟合
B.话题识别不准
C.过拟合
D.分词困难
正确答案:
13.类的R型聚类是指()
A.对样本个体进行聚类
B.对指标变量进行聚类。
正确答案:
14.决策树中的叶结点表示()
A.特征
B.类
C.属性
D.值域输出
正确答案:
15.pageRank中,将网页链接转化为()"投票"。
A.搜索量
B.评价
C.访问量
D.重要度
正确答案:
16.HITS算法中,网页的重要性应该依赖于()
A.每个网页上的超链接个数
B.用户提出的查询请求
C.网页上超链接重要性
正确答案:
17.算法中用到了外存的算法是()
A.随机算法
B.外存算法
C.并行算法
D.Anytime算法
正确答案:
18.决策树中的分支表示()
A.特征
B.类
C.属性
D.值域输出
正确答案:
19.非频繁模式( )
A.其置信度小于阈值
B.令人不感兴趣
C.包含负模式和负相关模式
D.对异常数据项敏感
正确答案:
20.度量距离中,表示各个坐标距离最大值的是()
A.欧氏距离
B.曼哈顿距离
C.切比雪夫距离
正确答案:
二、多选题 (共 20 道试题,共 40 分)
21.关联规则用于查找项目集合或对象集合之间的()
A.频繁模式
B.关联
C.相关性
D.因果结构
正确答案
22.Q型聚类的结果具有()的特点
A.直观
B.细致
C.全面
D.合理
正确答案
23.决策树中的信息增益等价于()中类与特征的()
A.训练数据
B.测试数据
C.交叉熵
D.互信息
正确正确答案:
24.下面哪些属于分类算法()
A.SVM
B.决策树
C.KMeans
D.朴素贝叶斯
正确答案
25.向量空间模型中,是将()看成()
A.文档
B.单词
C.词袋
D.编码
正确答案:B
26.大数据在医疗中的应用有()
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
正确答案
27.下列属于朴素贝叶斯缺点的是()
A.分类效果不稳定
B.不适合增量式训练
C.先验模型可能导致结果不佳
D.对缺失数据不太敏感
正确正确答案:
28.下列属于朴素贝叶斯优点的是()
A.有稳定的分类效率
B.对小规模的数据表现很好
C.对缺失数据敏感
D.分类决策错误率很低
正确答案
29.大数据在社交网络中的应用
A.用户偏好、情感、社交网络结构
B.用户画像、精准推荐
C.舆情监控、突发事件预警
D.预测外部趋势
正确答案:
30.以下哪些统计量可以反映数据的集中趋势
A.均值
B.中位数
C.方差(标准差)
D.众数
正确答案:
31.按社团形成机制分类,社团包括()
A.明显的社团
B.预定义社团
C.自组织社团
D.隐含的社团
正确正确答案:
32.聚类方法中的划分方法包括()
A.K-均值算法
B.凝聚法
C.分裂法
D.K-中心点算法
正确正确答案:
33.关联分析的作用是什么()
A.用于发现存在于大量数据集中的关联性
B.用于发现存在于大量数据集中的相关性
C.描述了一个事物中某些属性同时出现的规律
D.描述了一个事物中某些属性同时出现的模式
正确答案:
34.大数据在教育中的应用
A.网上公开课
B.慕课
C.智慧校园
D.翻转课堂
正确答案
35.以下什么问题可以归为回归问题()
A.市场趋势预测
B.产品质量管理
C.客户满意度调查
D.投资风险分析
正确答案
36.借助于大数据提供的()和(),政府可为农业生产进行合理引导,依据需求进行生产,避免产能过剩造成不必要的资源和社会财富浪费。
A.消费能力
B.趋势报告
C.购物结果
正确答案:
37.类的特征可以通过不同角度来刻画,包括()
A.类的均值
B.类的直径
C.类的样本散布矩阵
D.样本协方差矩阵
正确答案:
38.按主题分类,社团包括()
A.明显的社团
B.预定义社团
C.自组织社团
D.隐含的社团
正确正确答案:
39.随机游走的马尔可夫链中,互联网中的每一个网页就是马尔可夫链中的一个();该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的()。
A.序列
B.隐变量
C.状态
D.重要程度
正确正确答案:
40.链接分析是对网络链接的()等各种现象进行分析
A.自身属性
B.链接对象
C.链接网络
正确答案:
三、判断题 (共 10 道试题,共 10 分)
41.kNN不需存储所有的样本
答案:
42.城市公共交通规划、教育资源配置、医疗资源配置、商业中心建设、房地产规划、产业规划、城市建设等都可以借助于大数据技术进行良好的规划和动态调整。
答案:
43.麦肯锡研究院发布的报告Big Data: The next frontier for innovation, competition, and productivity, 第一次给大数据做出了相对清晰的定义
答案:
44.k均值聚类中,每个样本只能属于一个类。()
答案:
45.推荐系统根据用户的兴趣特点和购买行为,向用户提供建议
答案:
46.大数据在行业应用很广泛,行业领域包括电视媒体,汽车行业,医疗行业,保险行业等等。
答案:
47.网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
答案:
48.DAG中的父节点是唯一的。
答案:
49.文本分析是结构大数据分析的一个基本问题。()
答案
50.大数据分析模型讨论的问题是从大数据中发现什么
答案
四、更多答案下载:(www.) (共 1 道试题,共 6 分)
51.简述概率潜在语义分析PLSA的特点和基本想法。
答案:
五、论述题 (共 3 道试题,共 15 分)
52.层次聚类算法分为哪两种方法?简述这两个层次聚类算法。
答案:
53.简述支持向量机的基本模型。
答案:
54.试比较PageRank算法和HITS算法。
答案:
六、名词解释 (共 3 道试题,共 9 分)
55.S折交叉验证
答案:
56.类间的中心距离
答案:
57.邻接矩阵