可做奥鹏院校所有作业,毕业论文,咨询请添加QQ:3230981406 微信:aopopenfd777
[南开大学]20秋学期(1709、1803、1809、1903、1909、2003、2009 )《数据分析》在线作业
试卷总分:100 得分:100
第1题,()反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念
A、训练误差
B、测试误差
C、统计误差
D、平均误差
正确答案:
第2题,支持向量机的MapReduce实现要进行几轮MapReduce()
A、1
B、2
C、3
D、自行规定
正确答案:
第3题,类的R型聚类是指()
A、对样本个体进行聚类
B、对指标变量进行聚类。
正确答案:
第4题,在估计PLSA生成模型的参数时,使用()
A、极大似然估计
B、对数似然函数
C、特征独立假设
D、贝叶斯定理
正确答案:
答案来源:(www.),在链接作弊的垃圾农场中,作弊者拥有并完全控制的网页称为()
A、不可达网页
B、可达网页
C、自有网页
正确答案:
第6题,潜在语义分析创新地引入了()
A、单词维度
B、文本维度
C、话题维度
正确答案:
第7题,非频繁模式( )
A、其置信度小于阈值
B、令人不感兴趣
C、包含负模式和负相关模式
D、对异常数据项敏感
正确答案:
第8题,置信度(confidence)是衡量兴趣度度量( )的指标
A、简洁性
B、确定性
C、实用性
D、新颖性
正确答案:
第9题,决策树中的叶结点表示()
A、特征
B、类
C、属性
D、值域输出
正确答案:
答案来源:(www.),数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A、运营式系统阶段
B、用户原创内容阶段
C、感知式系统阶段
正确答案:
第11题,文本中所有单词的出现情况表示了文本的()
A、种类
B、特征
C、语义内容
D、语义结构
正确答案:
答案来源:(www.),闵式距离参数是()时代表曼哈顿距离
A、0
B、1
C、2
D、无穷
正确答案:
第13题,为了计算中介度,必须计算所有边上()的数目。
A、所有路径
B、最短路径
C、结点入度
D、节点出度
正确答案:
第14题,聚类属于()
A、有监督学习
B、无监督学习
C、强化学习
D、对抗学习
正确答案:
答案来源:(www.),评价分类器效果时,表示正确分类的样本数与总样本数之比的指标是()。
A、准确率
B、精确率
C、召回率
D、F1值
正确答案:
第16题,逻辑斯谛分布的分布函数范围在()
A、(-∞,+∞)
B、(0,1)
C、(-1/2,1/2)
D、(-1,1)
正确答案:
第17题,Apriori算法的加速过程依赖于以下哪个策略( )
A、抽样
B、剪枝
C、缓冲
D、并行
正确答案:
第18题,向量空间模型中,将单词在文本中出现的数据用一个()表示
A、单词-文本矩阵
B、单词-向量矩阵
C、距离矩阵
D、权重矩阵
正确答案:
第19题,潜在语义分析中,以()表示文本的语义内容
A、话题
B、话题向量
C、语义向量
D、距离向量
正确答案:
答案来源:(www.),KNN算法用MapReduce实现,要进行几轮MapReduce()
A、1
B、2
C、3
D、4
正确答案:
第21题,按社团形成机制分类,社团包括()
A、明显的社团
B、预定义社团
C、自组织社团
D、隐含的社团
正确答案:,C
第22题,决策树的生成过程是()
A、递归地进行下去,直至所有训练据子集被基本正确分类,或者没有合适的特征为止,最后每个子集都被分到叶结点上,即都有了明确的类
B、如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到所对应的叶结点中去
C、构建根结点,将所有训练数据都放在根结点
D、选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类
E、如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续对其进行分割,构建相应的结点
正确答案:
第23题,回归分析方法中,按照输入变量个数分类,可分为
A、一元回归
B、多元回归
C、线性回归
D、非线性回归
正确答案:
第24题,下列哪些任务适合构建分类模型()
A、银行业务中,客户申请贷款,根据客户的相关数据分析他是属于"诚信"类还是"失信"类
B、邮件系统可以根据email标题和内容区分出垃圾邮件
C、医学研究人员根据病理数据,合理辨识病情状况,采取合理治疗手段
D、房价预测
正确答案:
答案来源:(www.),ID3算法流程为()
A、从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点
B、所有特征的信息增益均很小或没有特征可以选择
C、得到一个决策树
D、对子结点递归地调用,构建决策树
正确答案:
第26题,大数据在电信中的应用有
A、基于用户、业务及流量分级的多维管控机制
B、精准的客户分析及营销
C、利用位置和轨迹信息服务社会
正确答案:,B,C
第27题,统计学习方法的组成
A、监督学习
B、无监督学习
C、强化学习
正确答案:
第28题,大数据在教育中的应用
A、网上公开课
B、慕课
C、智慧校园
D、翻转课堂
正确答案:,B,C,D
第29题,下列属于朴素贝叶斯缺点的是()
A、分类效果不稳定
B、不适合增量式训练
C、先验模型可能导致结果不佳
D、对缺失数据不太敏感
正确答案:,D
答案来源:(www.),基于分类对象的分类有()
A、Q型聚类
B、凝聚方式
C、R型聚类
D、分解方式
正确答案:
第31题,kNN算法中,选择较大的k值"学习"的估计误差会减小。()
T、对
F、错
正确答案:
第32题,SVM是在特征空间上的间隔最大的线性分类器。()
T、对
F、错
正确答案:
第33题,可信度是对关联规则的准确度的衡量。
T、对
F、错
更多答案下载:(www.)
第34题,要防止过拟合,进行最优的模型选择,即选择复杂度最适当的模型,以达到使测试误差最小的学习目的
T、对
F、错
正确答案:
第35题,如果一个网页被很多网页所指向,那么该网页很可能是重要的。()
T、对
F、错
正确答案:
第36题,FP-growth算法可以避免冗余的IO读写
T、对
F、错
更多答案下载:(www.)
第37题,通过分析已知训练样本类别的数据集属性,通过训练建立相应分类模型,是监督学习。()
T、对
F、错
正确答案:
第38题,大数据的速度快体现在数据产生速度快和要求分析处理速度快
T、对
F、错
更多答案下载:(www.)
第39题,ID3算法的核心是在决策树叶结点上应用信息增益准则选择特征,递归地构建决策树。
T、对
F、错
正确答案:
第40题,数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
T、对
F、错
正确答案:
第41题,TrustRank算法中,创建优质网页集合时,不会选择成员受限的域名。
T、对
F、错
正确答案:
第42题,聚类分析中,一个类是样本的一个子集。
T、对
F、错
正确答案:
第43题,决策树中为了防止过拟合现象可以对已生成的树自上而下剪枝。()
T、对
F、错
正确答案:
第44题,k均值聚类是硬聚类。()
T、对
F、错
正确答案:
第45题,关联规则可以用枚举的方法产生。
T、对
F、错
更多答案下载:(www.)
第46题,DAG中的父节点是唯一的。
T、对
F、错
正确答案:F
第47题,PageRank算法是图数据上的无监督学习方法。()
T、对
F、错
正确答案:
第48题,TF-IDF算法中,IDF指的是文档频率
T、对
F、错
正确答案:
第49题,监督学习是从标注数据中学习预测模型的机器学习问题
T、对
F、错
正确答案:
答案来源:(www.),朴素贝叶斯等价于期望风险最小化。()
T、对
F、错
正确答案: