【南开】《数据分析》20春期末考核（标准答案）-奥鹏学无忧教育辅导

可做奥鹏院校所有作业，毕业论文，咨询请添加QQ：3230981406 微信：aopopenfd777

《数据分析》20春期末考核

一、单选题 (共 20 道试题,共 20 分)
1.以下属于关联分析的是（）
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
正确答案:

2.潜在语义分析中，以（）表示文本的语义内容
A.话题
B.话题向量
C.语义向量
D.距离向量
正确答案:

3.聚类属于（）
A.有监督学习
B.无监督学习
C.强化学习
D.对抗学习
正确答案:

4.特征空间中两个实例点的（）是两个实例点相似程度的反映。
A.关联性
B.向量值
C.距离
正确答案:

5.闵式距离参数是（）时代表曼哈顿距离
A.0
B.1
C.2
D.无穷
正确答案:

6.在文本信息处理系统中，所处理的原始数据是（）
A.结构化的自然语言文本
B.非结构化的自然语言文本
C.非结构化的编码
D.结构化的编码
正确答案:

7.逻辑斯谛函数是一条（）曲线
A.抛物线
B.三角函数
C.S型曲线
D.直线
正确答案:

8.聚类过程为（）
A.数据准备，特征选择，特征提取，聚类，结果评估
B.数据准备，特征提取，特征选择，聚类，结果评估
C.数据准备，特征提取，聚类，特征选择，结果评估
正确答案:

9.评价分类器效果时，表示将正类样本预测为正类数与总预测为正类数之比的指标是（）。
A.准确率
B.精确率
C.召回率
D.F1值
正确答案:

10.KNN算法用MapReduce实现，要进行几轮MapReduce（）
A.1
B.2
C.3
D.4
正确答案:

11.在估计PLSA生成模型的参数时，使用（）
A.极大似然估计
B.对数似然函数
C.特征独立假设
D.贝叶斯定理
正确答案:

12.LDA导入先验分布是为了应对（）现象
A.欠拟合
B.话题识别不准
C.过拟合
D.分词困难
正确答案:

13.类的R型聚类是指（）
A.对样本个体进行聚类
B.对指标变量进行聚类。
正确答案:

14.决策树中的叶结点表示（）
A.特征
B.类
C.属性
D.值域输出
正确答案:

15.pageRank中，将网页链接转化为（）"投票"。
A.搜索量
B.评价
C.访问量
D.重要度
正确答案:

16.HITS算法中，网页的重要性应该依赖于（）
A.每个网页上的超链接个数
B.用户提出的查询请求
C.网页上超链接重要性
正确答案:

17.算法中用到了外存的算法是（）
A.随机算法
B.外存算法
C.并行算法
D.Anytime算法
正确答案:

18.决策树中的分支表示（）
A.特征
B.类
C.属性
D.值域输出
正确答案:

19.非频繁模式（）
A.其置信度小于阈值
B.令人不感兴趣
C.包含负模式和负相关模式
D.对异常数据项敏感
正确答案:

20.度量距离中，表示各个坐标距离最大值的是（）
A.欧氏距离
B.曼哈顿距离
C.切比雪夫距离
正确答案:

二、多选题 (共 20 道试题,共 40 分)
21.关联规则用于查找项目集合或对象集合之间的（）
A.频繁模式
B.关联
C.相关性
D.因果结构
正确答案:BCD

22.Q型聚类的结果具有（）的特点
A.直观
B.细致
C.全面
D.合理
正确答案:BCD

23.决策树中的信息增益等价于（）中类与特征的（）
A.训练数据
B.测试数据
C.交叉熵
D.互信息
正确正确答案:

24.下面哪些属于分类算法（）
A.SVM
B.决策树
C.KMeans
D.朴素贝叶斯
正确答案:BD

25.向量空间模型中，是将（）看成（）
A.文档
B.单词
C.词袋
D.编码
正确答案:B

26.大数据在医疗中的应用有（）
A.流行性疾病预防
B.慢性病健康管理
C.临床决策支持
D.医疗器械研发
正确答案:BCD

27.下列属于朴素贝叶斯缺点的是（）
A.分类效果不稳定
B.不适合增量式训练
C.先验模型可能导致结果不佳
D.对缺失数据不太敏感
正确正确答案:

28.下列属于朴素贝叶斯优点的是（）
A.有稳定的分类效率
B.对小规模的数据表现很好
C.对缺失数据敏感
D.分类决策错误率很低
正确答案:B

29.大数据在社交网络中的应用
A.用户偏好、情感、社交网络结构
B.用户画像、精准推荐
C.舆情监控、突发事件预警
D.预测外部趋势
正确答案:BCD

30.以下哪些统计量可以反映数据的集中趋势
A.均值
B.中位数
C.方差（标准差）
D.众数
正确答案:BD

31.按社团形成机制分类，社团包括（）
A.明显的社团
B.预定义社团
C.自组织社团
D.隐含的社团
正确正确答案:

32.聚类方法中的划分方法包括（）
A.K-均值算法
B.凝聚法
C.分裂法
D.K-中心点算法
正确正确答案:

33.关联分析的作用是什么（）
A.用于发现存在于大量数据集中的关联性
B.用于发现存在于大量数据集中的相关性
C.描述了一个事物中某些属性同时出现的规律
D.描述了一个事物中某些属性同时出现的模式
正确答案:BCD

34.大数据在教育中的应用
A.网上公开课
B.慕课
C.智慧校园
D.翻转课堂
正确答案:BCD

35.以下什么问题可以归为回归问题（）
A.市场趋势预测
B.产品质量管理
C.客户满意度调查
D.投资风险分析
正确答案:BCD

36.借助于大数据提供的()和()，政府可为农业生产进行合理引导，依据需求进行生产，避免产能过剩造成不必要的资源和社会财富浪费。
A.消费能力
B.趋势报告
C.购物结果
正确答案:B

37.类的特征可以通过不同角度来刻画，包括（）
A.类的均值
B.类的直径
C.类的样本散布矩阵
D.样本协方差矩阵
正确答案:BCD

38.按主题分类，社团包括（）
A.明显的社团
B.预定义社团
C.自组织社团
D.隐含的社团
正确正确答案:

39.随机游走的马尔可夫链中，互联网中的每一个网页就是马尔可夫链中的一个（）；该马尔可夫链平稳时每个状态停留的概率即反映了相应网页的（）。
A.序列
B.隐变量
C.状态
D.重要程度
正确正确答案:

40.链接分析是对网络链接的（）等各种现象进行分析
A.自身属性
B.链接对象
C.链接网络
正确答案:BC

三、答案来源：（www.） (共 10 道试题,共 10 分)
41.kNN不需存储所有的样本
答案:错误

42.城市公共交通规划、教育资源配置、医疗资源配置、商业中心建设、房地产规划、产业规划、城市建设等都可以借助于大数据技术进行良好的规划和动态调整。
答案:正确

43.麦肯锡研究院发布的报告Big Data: The next frontier for innovation, competition, and productivity, 第一次给大数据做出了相对清晰的定义
答案:正确

44.k均值聚类中，每个样本只能属于一个类。（）
答案:正确

45.推荐系统根据用户的兴趣特点和购买行为，向用户提供建议
答案:正确

46.大数据在行业应用很广泛，行业领域包括电视媒体，汽车行业，医疗行业，保险行业等等。
答案:正确

47.网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取，并按照一定规则和筛选标准将数据进行归类，形成数据库文件的一个过程。
答案:正确

48.DAG中的父节点是唯一的。
答案:错误

49.文本分析是结构大数据分析的一个基本问题。（）
答案:错误

50.大数据分析模型讨论的问题是从大数据中发现什么
答案:正确

四、更多答案下载：（www.） (共 1 道试题,共 6 分)
51.简述概率潜在语义分析PLSA的特点和基本想法。
答案:概率潜在语义分析(probabilistic latent semantic analysis, PLSA)，是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点是用隐变量表示话题；整个模型表示文本生成话题，话题生成单词，从而得到单词一文本共现数据的过程；假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。 给定一个文本集合，每个文本讨论若干个话题，每个话题由若干个单词表示。对文本集合进行概率潜在语义分析，就能够发现每个文本的话题，以及每个话题的单词。话题是不能从数据中直接观察到的，是潜在的。文本集合转换为文本--单词共现数据，具体表现为单词-文本矩阵。一个话题表示一个语义内容。文本数据基于如下的概率模型产生：首先有话题的概率分布，然后有话题给定条件下文本的条件概率分布，以及话题给定条件下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题，即潜在语义。直观上，语义相近的单词、语义相近的文本会被聚到相同的"软的类别"中，而话题所表示的就是这样的软的类别。 假设定义了K个话题和M个单词。任何一个文本是由K个话题中的多个混合而成。每个文本都可以看作话题集合上的一个概率分布，也就是每个文本以某个概率匹配某一个话题。每个话题都是单词集合上的一个概率分布，这意味着文本中的每个单词都看成是由某一个的话题以某种概率随机生成的。 

五、更多答案下载：（www.） (共 3 道试题,共 15 分)
52.层次聚类算法分为哪两种方法？简述这两个层次聚类算法。
答案:层次聚类算法是假设类别之间存在层次结构，将样本聚到层次化的类中。 层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。 聚合聚类开始将每个样本各自分到一个类，之后将相距最近的两类合并，建立一个新的类，重复此操作直到满足终止条件，得到层次化的类别。 分裂聚类开始将所有样本分到一个类，之后将已有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件，得到层次化的类别。 

53.简述支持向量机的基本模型。
答案:支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器，其学习策略是间隔最大化，可形式化为一个求解凸二次规划的问题，其学习算法是求解凸二次规划的最优化算法。

54.试比较PageRank算法和HITS算法。
答案:相同点：两者都是为了提高搜索引擎查找质量而提出的两种不同算法。 不同点：1)两者对网页的描述形式不同。 PageRank算法只用一个量值来表示网页的重要程度，而HITS算法对网页从权威性和集线性两个不同的方面来进行描述。 2)两者的理论基础不同。虽然两者的迭代算法都利用了特征向量作为理论基础和收敛性依据，但PageRank算法更具理论支持，它用马尔可夫随机游走来建模，并用马氏链的理论来进行解释；而HITS算法更多是基于人的直观，缺乏很好的理论模型。 3)两者计算所选取的链接网络不同。PageRank算法与用户查询无关，针对的是整个互联网的链接结构图，所有处理过程都是离线进行的，不会为实时在线查询过程付出额外的代价。HITS算法则不同，它依赖于特定的查询，是针对与特定查询相关的互联网子图来进行计算，规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank算法要快得多。但因为与查询相关，所以查询过程以及扩展根集的过程都需要付出代价，还有可能在扩展过程中，引入大量的噪声信息，造成主题漂移出现。 以前的研究工作已经证明HITS算法的性能跟PageRank算法旗鼓相当、不相上下。 

六、更多答案下载：（www.） (共 3 道试题,共 9 分)
55.S折交叉验证
答案:S折交叉验证(S-fold cross validation)方法如下：首先随机地将已给数据切分为S个互不相交的大小相同的子集；然后利用S一1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S种可能（即划分后，把每个子集都当一次测试集其余训练集）重复进行；最后选出S次评测中平均测试误差最小的模型． 

56.类间的中心距离
答案:一个类中所有样本的均值，即类的中心。类间的中心距离使用两类中心之间的距离作为两类间的距离。 

57.邻接矩阵
答案:如果结点i和j之间有边，则矩阵的第i行、第j列的元素为1，否则为0。

微信客服扫一扫