【南开】《数据科学导论》20春期末考核(标准答案)

可做奥鹏全部院校在线离线作业毕业论文QQ:3230981406 微信:aopopenfd777

发布时间:2020-09-02 01:15:21来源:admin浏览: 47 次



可做奥鹏院校所有作业,毕业论文,咨询请添加QQ:3230981406      微信:aopopenfd777




《数据科学导论》20春期末考核-00001

试卷总分:100  得分:100

一、单选题 (共 15 道试题,共 30 分)

1.下面不是分类的常用方法的有()

A.K近邻法

B.朴素贝叶斯

C.决策树

D.条件随机场

答案:D


2.BFR聚类用于在()欧氏空间中对数据进行聚类

A.高维

B.中维

C.低维

D.中高维

答案:A


3.聚类是一种()。

A.有监督学习

B.无监督学习

C.强化学习

D.半监督学习

答案:B


4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

A.异常值

B.缺失值

C.不一致的值

D.重复值


5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台,单位成本增加100元

B.产量每增加一台,单位成本减少1.2元

C.产量每增加一台,单位成本平均减少1.2元

D.产量每增加一台,单位平均增加100元


6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大


7.在回归分析中,自变量为(),因变量为()。

A.离散型变量,离散型变量

B.连续型变量,离散型变量

C.离散型变量,连续型变量

D.连续型变量,连续型变量


8.手肘法的核心指标是()。

A.SES

B.SSE

C.RMSE

D.MSE


9.特征选择的四个步骤中不包括()

A.子集产生

B.子集评估

C.子集搜索

D.子集验证


10.一元线性回归中,真实值与预测值的差称为样本的()。

A.误差

B.方差

C.测差

D.残差


11.K-means聚类适用的数据类型是()。

A.数值型数据

B.字符型数据

C.语音数据

D.所有数据


12.以下哪些不是缺失值的影响()

A.数据建模将丢失大量有用信息

B.数据建模的不确定性更加显著

C.对整体总是不产生什么作用

D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出


13.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度


14.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5


15.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型


二、多选题 (共 5 道试题,共 10 分)

16.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率


17.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离


18.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取


19.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播


20.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法


三、判断题 (共 15 道试题,共 30 分)

21.Jaccard系数只关心个体间共同具有的特征是否一致这个问题。


22.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。


23.使用SVD方法进行图像压缩不可以保留图像的重要特征。


24.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。


25.一个人的身高与体重之间具有函数关系。


26.K均值(K-Means)算法是密度聚类。


27.数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。


28.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。


29.利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。


30.对于项集来说,置信度没有意义。


31.每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。


32.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。


33.利用K近邻法进行分类时,k值过小容易发生过拟合现象。


34.聚合方法是自底向上的方法。


35.平均减少的不纯度越大,则特征重要度越高。


四、主观填空题 (共 5 道试题,共 10 分)

36.##感知机足以解决任何复杂的分类问题。


判定系数取值范围为[0,1],判定系数越接近##,表明变量之间的相关性越强。


38.在线性回归分析中,当输入特征的维度从一维增加到d维(d>1),则该问题为##问题。


39.多元线性回归中,在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用##。


40.在k近邻法中,通常采用##来选取最优的k值。


五、简答题 (共 2 道试题,共 20 分)

41.单层感知机和多层感知机分别解决的是哪类问题?


42.为什么某些属性可能会降低朴素贝叶斯分类器的性能?


作业咨询 论文咨询
微信客服扫一扫

回到顶部