20秋学期《数据分析》在线作业-奥鹏学无忧教育辅导

可做奥鹏院校所有作业，毕业论文，咨询请添加QQ：3230981406 微信：aopopenfd777

[南开大学]20秋学期（1709、1803、1809、1903、1909、2003、2009 ）《数据分析》在线作业
试卷总分:100 得分:100
第1题,（）反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念
A、训练误差
B、测试误差
C、统计误差
D、平均误差
正确答案:

第2题,支持向量机的MapReduce实现要进行几轮MapReduce（）
A、1
B、2
C、3
D、自行规定
正确答案:

第3题,类的R型聚类是指（）
A、对样本个体进行聚类
B、对指标变量进行聚类。
正确答案:

第4题,在估计PLSA生成模型的参数时，使用（）
A、极大似然估计
B、对数似然函数
C、特征独立假设
D、贝叶斯定理
正确答案:

答案来源：（www.）,在链接作弊的垃圾农场中，作弊者拥有并完全控制的网页称为（）
A、不可达网页
B、可达网页
C、自有网页
正确答案:

第6题,潜在语义分析创新地引入了（）
A、单词维度
B、文本维度
C、话题维度
正确答案:

第7题,非频繁模式（  ）
A、其置信度小于阈值
B、令人不感兴趣
C、包含负模式和负相关模式
D、对异常数据项敏感
正确答案:

第8题,置信度(confidence)是衡量兴趣度度量（  ）的指标
A、简洁性
B、确定性
C、实用性
D、新颖性
正确答案:

第9题,决策树中的叶结点表示（）
A、特征
B、类
C、属性
D、值域输出
正确答案:

答案来源：（www.）,数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段（  ）。
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
正确答案:

第11题,文本中所有单词的出现情况表示了文本的（）
A、种类
B、特征
C、语义内容
D、语义结构
正确答案:

答案来源：（www.）,闵式距离参数是（）时代表曼哈顿距离
A、0
B、1
C、2
D、无穷
正确答案:

第13题,为了计算中介度，必须计算所有边上（）的数目。
A、所有路径
B、最短路径
C、结点入度
D、节点出度
正确答案:

第14题,聚类属于（）
A、有监督学习
B、无监督学习
C、强化学习
D、对抗学习
正确答案:

答案来源：（www.）,评价分类器效果时，表示正确分类的样本数与总样本数之比的指标是（）。
A、准确率
B、精确率
C、召回率
D、F1值
正确答案:

第16题,逻辑斯谛分布的分布函数范围在（）
A、(-∞，+∞)
B、(0,1)
C、(-1/2,1/2)
D、(-1,1)
正确答案:

第17题,Apriori算法的加速过程依赖于以下哪个策略（）
A、抽样
B、剪枝
C、缓冲
D、并行
正确答案:

第18题,向量空间模型中，将单词在文本中出现的数据用一个（）表示
A、单词-文本矩阵
B、单词-向量矩阵
C、距离矩阵
D、权重矩阵
正确答案:

第19题,潜在语义分析中，以（）表示文本的语义内容
A、话题
B、话题向量
C、语义向量
D、距离向量
正确答案:

答案来源：（www.）,KNN算法用MapReduce实现，要进行几轮MapReduce（）
A、1
B、2
C、3
D、4
正确答案:

第21题,按社团形成机制分类，社团包括（）
A、明显的社团
B、预定义社团
C、自组织社团
D、隐含的社团
正确答案:,C

第22题,决策树的生成过程是（）
A、递归地进行下去，直至所有训练据子集被基本正确分类，或者没有合适的特征为止，最后每个子集都被分到叶结点上，即都有了明确的类
B、如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去
C、构建根结点，将所有训练数据都放在根结点
D、选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类
E、如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点
正确答案:

第23题,回归分析方法中，按照输入变量个数分类，可分为
A、一元回归
B、多元回归
C、线性回归
D、非线性回归
正确答案:

第24题,下列哪些任务适合构建分类模型（）
A、银行业务中，客户申请贷款，根据客户的相关数据分析他是属于"诚信"类还是"失信"类
B、邮件系统可以根据email标题和内容区分出垃圾邮件
C、医学研究人员根据病理数据，合理辨识病情状况，采取合理治疗手段
D、房价预测
正确答案:

答案来源：（www.）,ID3算法流程为（）
A、从根结点开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点
B、所有特征的信息增益均很小或没有特征可以选择
C、得到一个决策树
D、对子结点递归地调用，构建决策树
正确答案:

第26题,大数据在电信中的应用有
A、基于用户、业务及流量分级的多维管控机制
B、精准的客户分析及营销
C、利用位置和轨迹信息服务社会
正确答案:,B,C

第27题,统计学习方法的组成
A、监督学习
B、无监督学习
C、强化学习
正确答案:

第28题,大数据在教育中的应用
A、网上公开课
B、慕课
C、智慧校园
D、翻转课堂
正确答案:,B,C,D

第29题,下列属于朴素贝叶斯缺点的是（）
A、分类效果不稳定
B、不适合增量式训练
C、先验模型可能导致结果不佳
D、对缺失数据不太敏感
正确答案:,D

答案来源：（www.）,基于分类对象的分类有（）
A、Q型聚类
B、凝聚方式
C、R型聚类
D、分解方式
正确答案:

第31题,kNN算法中，选择较大的k值"学习"的估计误差会减小。（）
T、对
F、错
正确答案:

第32题,SVM是在特征空间上的间隔最大的线性分类器。（）
T、对
F、错
正确答案:

第33题,可信度是对关联规则的准确度的衡量。
T、对
F、错
更多答案下载：（www.）

第34题,要防止过拟合，进行最优的模型选择，即选择复杂度最适当的模型，以达到使测试误差最小的学习目的
T、对
F、错
正确答案:

第35题,如果一个网页被很多网页所指向，那么该网页很可能是重要的。（）
T、对
F、错
正确答案:

第36题,FP-growth算法可以避免冗余的IO读写
T、对
F、错
更多答案下载：（www.）

第37题,通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习。（）
T、对
F、错
正确答案:

第38题,大数据的速度快体现在数据产生速度快和要求分析处理速度快
T、对
F、错
更多答案下载：（www.）

第39题,ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征，递归地构建决策树。
T、对
F、错
正确答案:

第40题,数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
T、对
F、错
正确答案:

第41题,TrustRank算法中，创建优质网页集合时，不会选择成员受限的域名。
T、对
F、错
正确答案:

第42题,聚类分析中，一个类是样本的一个子集。
T、对
F、错
正确答案:

第43题,决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。（）
T、对
F、错
正确答案:

第44题,k均值聚类是硬聚类。（）
T、对
F、错
正确答案:

第45题,关联规则可以用枚举的方法产生。
T、对
F、错
更多答案下载：（www.）

第46题,DAG中的父节点是唯一的。
T、对
F、错
正确答案:F

第47题,PageRank算法是图数据上的无监督学习方法。（）
T、对
F、错
正确答案:

第48题,TF-IDF算法中，IDF指的是文档频率
T、对
F、错
正确答案:

第49题,监督学习是从标注数据中学习预测模型的机器学习问题
T、对
F、错
正确答案:

答案来源：（www.）,朴素贝叶斯等价于期望风险最小化。（）
T、对
F、错
正确答案:

微信客服扫一扫