23春学期(高起本:1709-2103、专升本/高起专:1909-2103)《数据科学导论》在线作业-00001
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
2.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
3.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
4.利用最小二乘法对多元线性回归进行参数估计时,其目标为()。
A.最小化方差#最小化标准差
B.最小化残差平方和
C.最大化信息熵
5.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
6.根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
7.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
8.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
9.单层感知机是由()层神经元组成。
A.一
B.二
C.三
D.四
10.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
11.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
12.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
13.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
14.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
15.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
16.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
17.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
18.单层感知机拥有()层功能神经元。
A.一
B.二
C.三
D.四
19.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
20.置信度(confidence)是衡量兴趣度度量( )的指标。
A.简洁性
B.确定性
C.实用性
D.新颖性
二、多选题 (共 10 道试题,共 20 分)
21.关联规则的评价度量主要有:()。
A.支持度
B.置信度
C.准确率
D.错误率
22.相关性的分类,按照相关的方向可以分为()。
A.正相关
B.负相关
C.左相关
D.右相关
23.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
24.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
25.下列选项是BFR的对象是()
A.废弃集
B.临时集
C.压缩集
D.留存集
26.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
27.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
28.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
29.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
30.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
三、判断题 (共 20 道试题,共 40 分)
31.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
32.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
33.K均值(K-Means)算法是密度聚类。
34.赤池信息准则是衡量统计模型拟合优良性的一种标准。
35.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
36.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
37.子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始。
38.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
39.给定关联规则A→B,意味着:若A发生,B也会发生。
40.决策树还可以表示给定特征条件下类的条件概率分布,这一概率分布定义在特征空间的一个划分上,将特征空间分为互不相交的单元或区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布
41.交叉表可以帮助人们发现变量之间的相互作用。
42.贝叶斯定理是概率论中的一个结果,它与随机变量的条件概率以及联合概率分布 有关。
43.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
44.由不同的距离度量所确定的最近邻点是不同的
45.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
46.在树的结构中,特征越重要,就越远离根节点。
47.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
48.特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
49.Apriori算法是一种典型的关联规则挖掘算法。
50.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
奥鹏,国开,广开,电大在线,各省平台,新疆一体化等平台学习
详情请咨询QQ : 3230981406或微信:aopopenfd777