机器学习与数据挖掘刷题练习(复习版)

闲言碎语：

本文是自己在准备数据挖掘结课考试时，自己整理的学习笔记，放在这存个档。

这门课我只是较为浅显的知道了一些理论概念，不过这门课的知识实践需要花费较多的时间和精力，是我本专业必

学的一门核心课，以后我可能还能用上哈~~

一、单选题及判断

1.数据

1.不属于数据的属性类型的是，相异

数据的属性类型包括标称、序数、区间和比率等四种

2.原始数据存在的几个问题不包括，不重复

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

对于数据挖掘中的原始数据，存在的问题有？ABCD

A. 不一致 B. 重复 C. 不完整 D. 含噪声

3.数据挖掘中使用的数据的原则不包括，保留唯一性

4.数据预处理的效果直接决定了机器学习的结果质量

5.噪声数据的产生原因主要有？ABC

A. 数据采集设备有问题
B. 在数据录入过程中发生了人为或计算机错误
C. 数据传输过程中发生错误

6.数据挖掘的任务包含（ ABCDE）

A. 关联分析
B. 时序模式分析
C. 聚类
D. 分类
E. 偏差检测

7.在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，不一定是匹配的，要考虑实体识别问题和属性冗余问题，从而把源数据在最低层上加以转换、提炼和集成。 A. 对

8.给定 n 个数据点，如果其中一半用于训练，另一半用于测试，则训练误差和测试误差之间的差别会随着 n的增加而减小。 A. 对

9.知识发现（KDD）包含数据准备、数据挖掘、结果评价三个阶段。对的

10.通过数据规约，可以达到（ ABC ）

A. 降低无效、错误数据对建模的影响，提高建模的准确性
B. 少量且具代表性的数据将大幅缩减数据挖掘所需的时间
C. 降低储存数据的成本

11.数据预处理方法主要有？ABCD

A. 数据清洗
B. 数据集成
C. 数据变换
D. 数据归约

11.1数据挖掘的数据准备阶段的主要工作包含（ ABCDE）。

A. 消除噪声
B. 推导计算缺值数据
C. 消除重复记录
D. 数据转换
E. 消减数据维数或降维

13.特征选择可以？****ABC

A. 选择区分能力强的数据
B. 降低模型分析的时间复杂度
C. 减少无效特征

14.信息增益度量偏向具有许多输出的测试，也就是说它倾向于选择具有大量值的属性。 A. 对

2.数据仓库

1.以下各项均是针对数据仓库的不同说法,你认为正确的有，ABCD

B. 数据仓库是一切商业智能系统的基础
C. 数据仓库是面向业务的,支持联机事务处理(OLTP)
D. 数据仓库支持决策而非事务处理
E. 数据仓库的主要目标就是帮助分析,做长期性的战略制定

2.关于OLAP和OLTP的说法,下列不正确的是( A )

A. OLAP事务量大,但事务内容比较简单且重复率高.
B. OLAP的最终数据来源与OLTP不一样.
C. OLTP面对的是决策人员和高层管理人员.
D. OLTP以应用为核心,是应用驱动的.

3.OLAP技术的核心是，多维分析

4.数据仓库是随着时间变化的,下面的描述不正确的是( C )

A. 数据仓库随时间的变化不断增加新的数据内容;
B. 捕捉到的新数据会覆盖原来的快照;
C. 数据仓库随事件变化不断删去旧的数据内容;
D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合

3.机器学习方法

1.移动运营商对客户的流失进行预测,可以使用下面哪种机器学习方法比较合适 , 多层前馈网络

2.下列哪些模型可以用来判断特征的重要性？（ ABDE ）

A. 随机森林（Random Forest）
B. 线性回归（Linear Regression）
C. 支持向量机（SVM）
D. 方差分析（ANOVA）
E. 逻辑回归（LogisticRegression）

3.机器学习是人工智能里面一个非常重要的技术，深度学习是机器学习里面的一种方法。 A. 对

4.下列哪些机器学习算法不需要做归一化处理( CE )

C. DecisionTree 决策树
E. Naive Bayes classifier 贝叶斯

5.泛化能力是机器学习中衡量学习机性能好坏的一个重要指标，主要是指学习机对预测样本进行正确预测的能力。A. 对

4.装袋

1.Bagging的主要特点有， ABD

A. 各基础分类器并行生成 B. 各基础分类器权重相同 D. 基于Bootstrap采样生成训练集

2.对Boosting模型的描述正确的是，

A. 采用串行训练模式 C. 通过改变训练集进行有针对性的学习

3.装袋法中每个样本被选中概率相同,所以噪声数据的影响下降,容易受过拟合的影响( ) 错误

5.决策树

1.决策树中属性选择的方法有？BCD

B. 信息增益 C. 信息增益率 D. GINI系数

2.下面的决策树中，不能解决回归问题的是？ABC

A. ID3 B. C4.5 C. C5.0

3.0决策树模型不适合训练集数据量较大的情况。错的

3.1决策树不擅长处理非数值型数据。错的

3.2逻辑回归分析需要对离散值做预处理，决策树则不需要。( ）A. 对

3.3决策树算法只能处理二分类，不能处理多分类。错的

4.DecisionTreeClassifier实现了决策树的构建，下列说法正确的有（ ABCD ）

A. 参数criterion的取值有gini，entropy两种。
B. 参数max_depth限定了决策树的最大深度，对于防止过拟合非常有用。
C. 参数min_samples_leaf 限定了叶子结点包含的最小样本数。
D. gini越小，表示纯度越高。

5.有关决策树的分类方法正确的是( B )。

B.决策树可以用于发现多种样本的特征

6.逻辑回归分析需要对离散值做预处理，决策树则不需要。( ） A. 对

6.随机森林

1.下面哪些超参数的增加可能会造成随机森林数据过拟合？A. 树的数量 B. 树的深度

2.下列关于**随机森林的描述正确**的是(ABCD)。

A. 与袋装法采用相同样本抽取方式
B. 每次从所有属性中随机抽取t个属性来训练分类器
C. 每次从所有样本中选取一定比例的样本来训练分类器
D. 可以使用不同的决策树的组合来构建分类模型

7.分类

1.分类算法有C4.5

常用的分类算法包括（ ABCD），

A. 决策树 B. 支持向量机 C. 贝叶斯网络 D. 神经网络

解决分类问题的方法包括？ ABCD

A. 决策树 B. 贝叶斯 C. 人工神经网络 D. 支持向量机

2.以下属于分类器评价或比较尺度的有:

A.预测准确度
C.模型描述的简洁度
D.计算复杂度

3.哪些不是最近邻分类器的特点，

C. 最近邻分类器基于全局信息进行预测

4.通过聚集多个分类器的预测来提高分类准确率的技术称为， 组合(ensemble)

5.**评估分类器预测能力的度量包括**（）

A. 准确率
B. 灵敏度(又称为召回率)
C. 特效性
D. 精度
E. F1和Fβ

6.在评价不平衡类问题分类的度量方法有如下几种,( )

A. F1度量
B. 召回率(recall)
C. 精度(precision)
D. 真正率(ture positive rate,TPR)

7.一般来说，回归不用在分类问题上，但是也有特殊情况，比如logistic 回归可以用来解决0/1分类问题。（） A. 对

8.分类是有监督的学习，聚类是无监督的学习

9.受试者操作特征曲线(Receiver Operating Characteristic Curve，ROC)是一种反映分类模型敏感性和特异性连续变量的综合，ROC的横坐标，纵坐标分别表示（）

A. 假正例率（FPR），真正例率（TPR）

E. 假阳率（特异度），真阳率（灵敏度）

10.组合方法可以通过学习和组合一系列个体（基）分类器模型来提高总体准确率，主要的组合方法有（ ABC ）。

A. 装袋 B. 提升 C. 随机森林

11.在谈到分类时，数据元组也称为？ABCD

A. 样本
B. 实例
C. 数据点
D. 对象

12.数据分类是一个两阶段过程，包括（）和分类阶段。学习阶段

13.分类器的构造与评估需要把标记的数据集划分成训练集和检验集，典型方法包含（ ABCD ）。

A. 保持
B. 随机抽样
C. 交叉验证
D. 自助法

14.对回归问题和分类问题的评价 最常用的指标都是准确率和召回率。错误

15.输出变量为有限个离散变量的预测问题是回归问题；输出变量为连续变量的预测问题是分类问题。B.错误

15.1分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是是连续值。 A. 对

16.朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。A.对的

17.模型选择方法主要有( AB )。

A. 正则化（Regularization）
B. 交叉验证（Cross Validation）

18.分类是预测数据对象的离散类别，预测是用于数据对象的连续取值。A. 对

19.在分类型机器学习过程中,下面有关分类算法的选择说法错误的是( AD)。

A. 算法参数是默认调好的,分析过程不需要修改
B. 分类算法的优劣需要通过实验比较才能确定
C. 分类算法对数据有一定的要求,一种算法不能解决所有的分类问题
D. 分类算法的结果只要训练样本准确度高就可以使用了

8.聚类

1.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（聚类）

2.如何衡量聚类质量，需要考虑数据点间的连通性

3.哪种聚类方法可以提供聚类树形图，层次聚类

4.通过以下哪些指标我们可以在层次聚类中寻找两个集群之间的差异？ABC

A. 单链 B. 完全链接 C. 平均链接

5.聚类分析中，簇间距离可以定义为（ ABCD）

A. 最短距离法（最大相似度）
B. 最长距离法（最小相似度）
C. 类平均法
D. 中心法（两类的两个中心点的距离为簇间距离）

6.聚类系数的外部指标是指将聚类结果和某个“参考模型”进行比较。A. 对

7.DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

DBSCAN是一个比较有代表性的基于密度的聚类算法。

DBSCAN在最坏情况下的时间复杂度是，**$O(m^2)$**

DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。对的

7.1 使用Python的sklearn.cluster库中的DBSCAN算法进行聚类的时候，参数eps和min_samples的描述正确的是（）。

B. eps越小，聚出来的类越多
C. min_samples越小，一个簇中包含的样本点越少

8.基于密度的聚类算法代表算法有（ ABC ）

A. DBSCAN算法 B. OPTICS算法 C. DENCLUE算法

9.Python中层次聚类的函数是AgglomerativeClustering，重要的参数包含（ ABC ）。

A. n_clusters B. affinity C. linkage

9.1层次聚类的函数AgglomerativeClustering中，linkage是类间距离的定义，其取值包含（ ABC）

A. ward
B. average
C. complete

10.哪些数据特性都是对聚类分析具有很强影响的。( ABCD )

A. 高维性
B. 规模
C. 稀疏性
D. 噪声和离群点

11.聚类分析是一种有监督的学习方法。B.错的

12.影响聚类结果的主要因素有哪些（ ABCD ）

A. 分类准则
B. 相似性测度（度量）
C. 特征量选择
D. 量纲

13.层次聚类可分为“自顶向下”和“自底向上”两种策略；A.对的

14.下列哪项不属于聚类分析的算法(D)

A. K-Means
B. K-中心点
C. 系统聚类
D. Apriori算法

15.某电商分析人员希望通过聚类方法定位代商家刷信用级别的违规者，以下哪些操作不应该进行？ BD

B. 对变量进行百分位秩转换
D. 对变量进行分箱处理

9.回归模型

1.有关回归模型的系数,以下说法错误的是哪个( B )。

A. 一元线性回归模型的系数可以使用最小二乘法求得
B. 多元回归模型的系数可以使用梯度下降法求得
C. 一元线性回归模型的系数大小和正负说明自变量对因变量的相对影响大小
D. 回归分析的目的是计算回归方程的系数,使得样本的输入和输出变量之间的关系能够合理拟合

2.回归分析中按照自变量和因变量的关系类型可以分为？（ AB ）

A. 线性回归分析
B. 非线性回归分析

3.线性模型的优点包括？（ ABCD ）

A. 形式简单、易于建模
B. 可解释性
C. 引入层级结构或高维映射
D. 线性模型中系数直观表达了各属性在预测中的重要性

4.(单选题)线性判别分析是一种（ A）的方法。A.降维

5.对于非线性回归问题,以下说法错误的是哪个(A )。

A. 可以分别求单个自变量与因变量的回归方程,然后简单求这些方程的加权和
B. 非线性回归方程的系数需要把其转化为线性回归方程才方便求解
C. 非线性回归模型的检验也可以使用R2
D. Logistic回归是一种典型的广义线性回归模型

10.支持向量机SVM

1.线性SVM和一般线性分类器的区别主要是，是否确保间隔最大化

2.在SVM领域中，margin的含义是，间隔

3.为什么通常要选择margin最大的分类器， 望获得较低的测试误差

4.SVM本身是应用于二分类的，若处理多分类必须进行改进。

若采用**”one vs all”解决5分类问题，需要设计（5）个分类器**。

若采用**”one vs one”解决5分类问题，需要设计（10）个分类器。**

4.1选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。（n>2）

A. 需要在n类分类问题中适合n个模型

5.假设超平面为wx+b=0，其margin的大小为（）。*2/|w|

6.支持向量（support vectors）指的是（）,决定分类面可以平移的范围的数据点

7.支持向量机SVM是一种（）算法 小样本下的统计机器学习

8.在SVM当中，主要的运算形式是（）。向量内积

9.（）是定义在特征空间上的、间隔最大、支持核技巧的分类器。 SVM支持向量机

10.对于SVM，在映射后的高维空间直接进行计算的主要问题是，计算复杂度高

11.以下关于SVM支持向量机的说法正确的是（ )。

C. SVM方法简单，鲁棒性较好
D. SVM分类面取决于支持向量

12.支持向量机是一个分类器，超平面上的数据是支持向量，超平面以外的数据可以辅助分类。错的

11.K-Means(K均值算法)

1.为了在K均值算法中找到簇的最优值，可以使用 Elbow法，关注的就是方差百分比

2.K均值聚类时，初始化不良会导致收敛速度差 A. 对

3.可以试着运行不同的质心初始化算法，可以获得和全局最小值有关的K均值算法的良好结果。A. 对

4.在对数据集执行K均值聚类分析以后，你得到了下面的树形图。从树形图中不能得出那些结论呢？（）

A. 在聚类分析中有28个数据点
B. 被分析的数据点里最佳聚类数是4
C. 使用的接近函数是平均链路聚类
D. 对于上面树形图的解释不能用于K均值聚类分析

5.K-means算法的缺点有（ ABCD ）

A. 只有当簇均值有定义的情况下，k均值方法才能使用。
B. 用户必须首先给定簇数目。
C. 不适合发现非凸形状的簇，或者大小差别很大的簇。
D. 对噪声和离群点数据敏感。

6.K-Means聚类算法可大致分为以下几个步骤，步骤中说法错误的是（ C）

A. 任意选取两个点作为两个簇的初始中心；
B. 对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇对；
C. 继续使用上步获得的簇中心；
D. 重新计算数据集中每个点到两个簇中心的距离，根据其值进行重新分配。

7.应用K均值算法之前，特征缩放是一个很重要的步骤。这是为什么呢（ A ）

A. 在距离计算中，它为所有特征赋予相同的权重。

二、填空计算题

1.相似性计算

(1) 二值离散型属性的相似性计算方法（计算样本间的距离）

10维特征的二值离散型属性样本A,B分别为A=[1 0 0 0 0 0 0 0 0 0],B=[1 0 0 0 0 0 1 0 0 1],A,B 的相似性SMC = （）。JC=（）

0.2，2/3
10维特征的二值离散型属性样本A,B分别为A=[1 0 0 1 0 0 0 0 0 0],B=[1 0 0 0 0 0 1 0 0 1],A,B 的相似性SMC = （）。JC=（）

0.3，0.75

总结，自己画矩阵图计算即可

SMC，简单匹配系数，用于对对称的二值离散型属性的样本间距离的计算

Jaccard系数，不对称的二值离散型属性的样本间的距离计算

(2) 多值离散型属性的相似性计算

已知样本如下。简单匹配法计算x1,x4的相似性。d(x1,x4)= ( )

正确答案：
(1) 1/3 看x1,x4这行，三个字段相同的值占(2/3) , 相似性为1-2/3==1/3

2.熵的计算

1.以下是目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1]，目标变量的熵是？（）

A. -(5/8 log(5/8) + 3/8 log(3/8))

3.混淆矩阵的计算

1.某分类器的混淆矩阵如上表，该分类器的误分率为 （FP+FN）主对角线,9%

2.该分类器的查准率（Precision）为，P=TP/(TP+FP)，竖着看 30%

3.该分类器的查全率（Recall）为，TP/(TP+FN) 查全率（召回率），横着看 60%

4.K均值聚类方法

1.假设你想用K均值聚类方法将7个观测值聚类到3个簇中，在第一次迭代簇之后，C1、C2、C3具有以下观测值： C1: {(2,2), (4,4), (6,6)} C2: {(0,4), (4,0)} C3: {(5,5), (9,9)} 在第二次迭代中，

01观测点（9，9）到集群质心C1的 Manhattan 距离是？A

C1:((2+4+6)/3, (2+4+6)/3)（4,4）和（9,9）的 Manhattan 距离是：（9-4）+（9-4）= 10。

02如果继续进行第二次迭代，哪一个将成为集群的质心？A

A. C1: (4,4), C2: (2,2), C3: (7,7)

找到集群中数据点的质心 C1 = ((2+4+6)/3,(2+4+6)/3) = (4, 4)

找到集群中数据点的质心 C2 = ((0+4)/2, (4+0)/2) =(2, 2)

找到集群中数据点的质心 C3 = ((5+9)/2, (5+9)/2) =(7, 7)

因此, C1: (4,4), C2: (2,2), C3: (7,7)

5.分类器的正确率

1.设测试样本中，A类样本90个，B类样本10个。分类器C1将所有的测试样本都分成了A类。分类器C2将A类的90个样本分对了70个，将B类的样本分对了5个。C1的分类正确率为（　　），C2的分类正确率（）。（填写百分数形式，如：１０％）

(1) ９０％ (2) ７５％

C1的分类正确率为（　），正确的样本数/总样本数 —> 90/100 == 90%

C2的分类正确率（）, —> (70+5)/100 == 75%

6.查准率、查全率计算

某局域网中有 A 类信息１４００条，B 类信息３００条，C 类信息３００条。科技人员甲设计了搜索引擎，以搜索 A 类信息为目的，结果返回了 A 类信息７００条，B 类信息２００条，C 类信息１００条。问该引擎的查准率为（），查全率为（）。（填写百分数形式，如：１０％）

70%，50%

该搜索引擎的**查准率 (竖着看)**为：70%（计算公式：查准率 = 检索到的相关信息数 / 检索到的全部信息数 × 100% = 700 / (700 + 200 + 100) × 100% = 70%）

该搜索引擎的**查全率 (横着看)**为：50%（计算公式：查全率 = 检索到的相关信息数 / 相关信息的总数 × 100% = 700 / 1400 × 100% = 50%）

三、重点大题

1.混淆矩阵

题目：有20个样本，其中真实正例有10个，用p表示，负例有10个，用n表示。

Inst# 代表样本编号，Class代表样本真实的类别，Score表示利用模型得出每个测试样本属于真实样

本的概率。依次将Score概率从大到小排序，得到下表：

问题1

1.画出Score阈值为0.5时的混淆矩阵，计算此时的F1度量值。

分析：

（1）Score阈值为0.5时的混淆矩阵

在左侧：分类器预测为正的情况，相反右侧是分类器预测为负的情况，具体值在图中数即可

要知道混淆矩阵如何写，各个值对应的含义

TP: 分类器预测为正，真实为正

FP: 分类器预测为正，真实为负

FN:分类器预测为负，真实为正

TN:分类器预测为负，真实为负

（2）F1度量值，F1是准确率和召回率的调和平均。

具体推导，

计算F1记住公式即可，

计算，

拓展：

1的另一种出题方式，不给出具体概率的情况。

现有20个样本，包括10个正例（横着看，真实正例：TP+FN），10个负例。当阈值为0.5时，分类器预测正例为10只，其中将4个反例预测为正例。

试求出该分类结果的混淆矩阵和F1值。

分析：

其中将4个反例预测为正例：（由一个值推出其他三个值）

预测器为正，真实为负，及FP=4 —-> 其他值

共有20个样本：TP+FP+TN+FN=20;

10个正例：TP+FN=10； 10个反例：FP+TN=10；

预测正例为10：TP+FP=10；预测反例为10：FN+TN=10；

4个反例预测为正例：FP=4

问题2

2.画出ROC 曲线。

补充：

FP:预测为正，真实为负的数量， TP:预测为正，真实为正的数量

ROC 曲线的横坐标为FPR，纵坐标为TPR。

FPR是错误预测为正确的概率**(假正率)，TPR是正确预测为正确的概率(真正率)**。每个点坐标（FPR, TPR）

0.9<阈值<=1时，没有样本被预测为正例，所有样本被预测为反例。所以FP=0，TP=0，得ROC坐标**(0,0)**。

0.8<阈值<=9时，样本1预测为正例，其他样本被预测为反例。其中，样本1为真实正例，所以FP=0，TP=1，得ROC坐标(0,0),**(0,0.1)**。

0.7<阈值<=8时，样本1-2预测为正例。其中，样本1,2为真实正例，所以FP=0，TP=2，得ROC坐标(0,0),(0,0.1),(0,0.2)。

0.6<阈值<=7时，样本1-3预测为正例。其中，样本1,2为真实正例，样本3为真实反例，所以FP=1，TP=2，得ROC坐标(0,0),(0,0.1),(0,0.2),**(0.1,0.2)**。

0.55<阈值<=0.6时，样本1-4预测为正例。其中，样本1,2,4为真实正例，样本3为真实反例，所以FP=1，TP=3，得ROC坐标(0,0),(0,0.1),(0,0.2),(0.1,0.2),**(0.1,0.3)**。

……

具体计算图如下：

结果：

ROC 曲线的横坐标为FPR，纵坐标为TPR。FPR是错误预测为正确的概率，TPR是正确预测为正确的概率。

2.决策树

（使用信息增益的方法）

题目：

使用信息增益方法，计算下表中的决策树

根据类别（是否）这一列来计算，

考试推荐写法

其他特征信息增益，

利用上述结果，由于特征A3（房子特征）的信息增益最大，所以选择特征A3作为根节点的特征。它将训练数据集D划分为两个子集D1（A3取值为“是”）和D2（A3取值为“否”）。

“房子特征=是”的样本都对应“类别=是”，达到终止条件，只用计算D2这个分支即可

然后对D2从特征A1（年龄），特征A2（工作），特征A4（信贷情况）中选择新的特征，计算各个特征信息增益。

利用上述结果，由于特征A2（工作特征）的信息增益最大，所以选择特征A2作为否分支的根节点。它将训练数据集D2划分为两个子集D21（A2取值为“是”）和D22（A2取值为“否”）。且每个分支都只有一种结果，所以决策树划分完毕。

可以画出决策树，

3.核函数

题目：

带公式计算即可，

4.SVM

支持向量机（SVM）的主要思想是建立一个超平面作为决策曲面，使得正例和反例之间的隔离边缘被最大化。更精确说，支持向量机是结构风险最小化方法的近似实现。

题目：

带公式计算,

参考资料

练习题整理自学习通的练习题，及桂电的<<机器学习>>课程答疑资料。