南开22春学期《数据科学导论》在线作业【资料答案】-奥鹏学无忧教育辅导

22春学期（高起本1709-1803、全层次1809-2103）《数据科学导论》在线作业-00003

试卷总分:100 得分:100

一、单选题 (共 20 道试题,共 40 分)

1.根据映射关系的不同可以分为线性回归和()。

A.对数回归

B.非线性回归

C.逻辑回归

D.多元回归

2.为了解决任何复杂的分类问题,使用的感知机结构应至少包含()个隐含层。

A.1

B.2

C.3

D.4

3.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。

A.1,线性

B.2,线性

C.1,非线性

D.2,非线性

4.以下哪个不是处理缺失值的方法()

A.删除记录

B.按照一定原则补充

C.不处理

D.随意填写

5.K-means聚类适用的数据类型是()。

A.数值型数据

B.字符型数据

C.语音数据

D.所有数据

6.单层感知机模型属于()模型。

A.二分类的线性分类模型

B.二分类的非线性分类模型

C.多分类的线性分类模型

D.多分类的非线性分类模型

7.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

A.异常值

B.缺失值

C.不一致的值

D.重复值

8.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台，单位成本增加100元

B.产量每增加一台，单位成本减少1.2元

C.产量每增加一台，单位成本平均减少1.2元

D.产量每增加一台，单位平均增加100元

9.下列两个变量之间的关系中,哪个是函数关系()。

A.人的性别和他的身高

B.人的工资与年龄

C.正方形的面积和边长

D.温度与湿度

10.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )

A.K-means

B.Bayes Network

C.C4.5

D.Apriori

11.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()

A.简单函数变换

B.规范化

C.属性构造

D.连续属性离散化

12.只有非零值才重要的二元属性被称作:( ),其中购物篮数据就属于这种属性。

A.计数属性

B.离散属性

C.非对称的二元属性#对称属性

13.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。

A.4

B.5

C.6

D.7

14.手肘法的核心指标是()。

A.SES

B.SSE

C.RMSE

D.MSE

15.单层感知机是由()层神经元组成。

A.一

B.二

C.三

D.四

16.特征选择的四个步骤中不包括()

A.子集产生

B.子集评估

C.子集搜索

D.子集验证

17.以下哪一项不是特征选择常见的方法()

A.过滤式

B.封装式

C.嵌入式

D.开放式

18.层次聚类对给定的数据进行()的分解。

A.聚合

B.层次

C.分拆

D.复制

19.层次聚类适合规模较()的数据集

A.大

B.中

C.小

D.所有

20.实体识别的常见形式()

A.同名异义

B.异名同义

C.单位不统一

D.属性不同

二、多选题 (共 10 道试题,共 20 分)

21.多层感知机的学习过程包含()。

A.信号的正向传播

B.信号的反向传播

C.误差的正向传播

D.误差的反向传播

22.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

23.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

24.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

25.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

26.一元回归参数估计的参数求解方法有()。

A.最大似然法

B.距估计法

C.最小二乘法

D.欧式距离法

27.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层

28.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解

29.关联规则的评价度量主要有:()。

A.支持度

B.置信度

C.准确率

D.错误率

30.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离

三、判断题 (共 20 道试题,共 40 分)

31.啤酒与尿布的故事是聚类分析的典型实例。

32.赤池信息准则是衡量统计模型拟合优良性的一种标准。

33.随着特征维数的增加,样本间区分度提高。

34.探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。

35.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。

36.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。

37.BFR聚类簇的坐标可以与空间的坐标保持一致。

38.在一元线性回归中,输入只包含一个单独的特征。

39.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。

40.K均值(K-Means)算法是密度聚类。

41.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构

42.交叉表被广泛用于调查研究,商业智能,工程和科学研究

43.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式

44.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。

45.对于项集来说,置信度没有意义。

46.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。

47.给定关联规则A→B,意味着:若A发生,B也会发生。

48.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。

49.一个人的身高与体重之间具有函数关系。

50.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。

微信客服扫一扫