机器学习_复习
贝叶斯学习

线性分类器
feel confused:

感知机
没太理解
可以使用梯度下降优化
线性鉴别分析

不能太理解
特征提取
主成分分析(PCA):

决策树
ID3决策树:
划分选择依据:最大化信息增益
C4.5决策树:
划分选择依据:最大化信息增益率
无向图模型:马尔科夫随机场
团:团中所有元素均连接

Z为归一化因子。
隐马尔科夫模型

关于时序
状态转移矩阵

观察矩阵

初始状态概率向量

隐马尔科夫模型由上述三者唯一确定:

生成过程

贝叶斯学习与参数估计
使得 出现概率最大即可。
Boost与Bagging:
boots串行,bagging并行
boost,会根据正确率不断调整权重,而bagging全部权重一致
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
Logistic模型
线性,最大似然求参数(EM)!这是需要记住的
贝叶斯分类器
• 朴素贝叶斯分类器:假设P c ( | ) x 中 x 特征向量的各维属性独立;
• 半朴素贝叶斯分类器:假设P c ( | ) x 中 x 的各维属性存在依赖;
• 正态分布的贝叶斯分类器:假设P c ( | ( )) x 服从正态分布;
找最大特征值的是PCA(主成分分析)
36
39
42
44
45
46
48
54
58
60
61
62
63
70
77
89
7
18
19
22
30
31
38
若λ较大时,偏差增大,方差减小
- 在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题
(D)
A. 增加训练集量
B. 减少神经网络隐藏层节点数
C. 删除稀疏的特征
D. SVM算法中使用高斯核代替线性核 - 关于交叉验证,下列说法中错误的是(A )
A. 交叉验证能够提升模型的准确率
B. 交叉验证能够让样本数据被模型充分利用
C. 交叉验证搭配网格搜索能够提升我们查找最优超参数组合的效率
D. 使用网格搜索时我们一般会提供超参数的可能取值字典
SVM使用Hinge loss
下列关于k-means说法不正确的是( D )
A. 算法有可能终止于局部最优解
B. 簇的数目需要事先给定
C. 对噪声和离群点敏感
D. 适合处理非凸型数据在机器学习中,当模型的参数量大于样本量时参数估计使用(D)
A. 解析法
B. 穷举法
C. 集成法
D. 梯度下降法以下模型中属于贝叶斯网络的有( BD )
A. 马尔可夫随机场
B. 隐马尔可夫模型
C. 条件随机场
D. 朴素贝叶斯分类器如果SVM模型欠拟合, 以下方法哪些可以改进模型( AD )
A. 增大惩罚参数C的值
B. 减小惩罚参数C的值
C. 减小核系数(gamma参数)
D. 增大核系数(gamma参数)下列选项中属于实现决策树分类方法时的常见组件有( ACD )
A. 基分类器
B. 激活函数
C. 剪枝方法
D. 划分目标以下哪些算法, 可以用神经网络去构造( BD )
A. KNN
B. Logistic回归
C. 决策树
D. 最小二乘估计下列算法属于深度学习的是( ABD )
A. 卷积神经网络
B.循环神经网络
C.决策树
D.受限玻尔兹曼机在机器学习中,下列关于各算法对应的损失函数正确的是( ABCD )
A. 最小二乘-Square loss
B. SVM-Hinge Loss
C. Logistic Regression-交叉熵损失函数
D. AdaBoost-指数损失函数类别不平衡就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正
例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个
问题,下列方法正确的是( ACD )
A. 在训练样本较多的类别中进行欠采样
B. 在训练样本较多的类别中进行过采样
C. 直接基于原数据集进行学习,对预测值进行再缩放处理
D. 通过对反例中的数据进行插值,来产生额外的反例以下关于正则化的描述正确的是( ABCD )
A. 正则化可以防止过拟合
B. L1正则化能得到稀疏解
C. L2正则化约束了解空间
D. Dropout也是一种正则化方法以下选项中可以用来降低欠拟合的方法有( BC )
A. 获取更多训练数据
B. 添加有效的数据特征
C. 增加模型复杂度
D. 添加正则化方法
19
以下哪些机器学习算法可以不对特征做归一化处理( AD )
A. 随机森林 B. 逻辑回归 C. SVM D. 决策树
38.关于集成学习正确的是( BC )
A.Bagging 降低偏差
B.Bagging 降低方差
C.Boosting 降低偏差
D.Boosting 降低方差





