【南开】20春学期《数据科学导论》在线作业(标准答案)

可做奥鹏全部院校在线离线作业毕业论文QQ:3230981406 微信:aopopenfd777

发布时间:2020-08-29 23:43:29来源:admin浏览: 64 次

可做奥鹏院校所有作业,毕业论文,咨询请添加QQ:3230981406      微信:aopopenfd777




20春学期(1709、1803、1809、1903、1909、2003)《数据科学导论》在线作业

试卷总分:100  得分:100

一、单选题 (共 20 道试题,共 40 分)

1.以下属于关联分析的是( )

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模


2.哪一项不属于规范化的方法()

A.最小-最大规范化

B.零-均值规范化

C.小数定标规范化

D.中位数规范化


3.实体识别属于以下哪个过程()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换


4.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性


5.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()

A.关联规则发现

B.聚类

C.分类

D.自然语言处理


6.层次聚类适合规模较()的数据集

A.大

B.中

C.小

D.所有


7.下面不是分类的常用方法的有()

A.K近邻法

B.朴素贝叶斯

C.决策树

D.条件随机场


8.BFR聚类用于在()欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维


9.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。

A.计数属性

B.离散属性

C.非对称的二元属性#对称属性


10.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。

A.1

B.2

C.3

D.4


11.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量


12.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori


13.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差

B.方差

C.测差

D.残差


14.以下哪个不是处理缺失值的方法()

A.删除记录

B.按照一定原则补充

C.不处理

D.随意填写


15.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

A.异常值

B.缺失值

C.不一致的值

D.重复值


16.根据映射关系的不同可以分为线性回归和()。

A.对数回归

B.非线性回归

C.逻辑回归

D.多元回归


17.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大


18.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5


19.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型


20.特征选择的四个步骤中不包括()

A.子集产生

B.子集评估

C.子集搜索

D.子集验证


二、多选题 (共 10 道试题,共 20 分)

21.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层


22.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度


23.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法


24.层次聚类的方法是()

A.聚合方法

B.分拆方法

C.组合方法

D.比较方法


25.相关性的分类,按照相关的方向可以分为()。

A.正相关

B.负相关

C.左相关

D.右相关


26.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解


27.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则


28.下列选项是BFR的对象是()

A.废弃集

B.临时集

C.压缩集

D.留存集


29.什么情况下结点不用划分()

A.当前结点所包含的样本全属于同一类别

B.当前属性集为空,或是所有样本在所有属性上取值相同

C.当前结点包含的样本集为空

D.还有子集不能被基本正确分类


30.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率


三、判断题 (共 20 道试题,共 40 分)

31.在一元线性回归中,输入只包含一个单独的特征。


32.sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。


33.多层感知机的学习能力有限,只能处理线性可分的二分类问题。


34.BFR聚类簇的坐标可以与空间的坐标保持一致。


35.支持度是衡量关联规则重要性的一个指标。


36.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。


37.信息熵越小,样本结合的纯度越低


38.在数据预处理时,无论什么情况,都可以直接将异常值删除


39.决策树的输入为训练集,输出为以node为根结点的一棵决策树


40.单层感知机对于线性不可分的数据,学习过程也可以收敛。


41.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能


42.随着特征维数的增加,样本间区分度提高。


43.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。


44.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。


45.决策树内部结点表示一个类,叶结点表示一个特征或属性


46.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。


47.K均值(K-Means)算法是密度聚类。


48.Apriori算法是一种典型的关联规则挖掘算法。


49.当特征为离散型时,可以使用信息增益作为评价统计量。


50.EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。


作业咨询 论文咨询
微信客服扫一扫

回到顶部