贝叶斯学习

image-20230102191120623

线性分类器

feel confused:

image-20230102194802069

感知机

没太理解

可以使用梯度下降优化

线性鉴别分析

image-20230102223946453

不能太理解

特征提取

主成分分析(PCA):

image-20230105011133511

决策树

ID3决策树:

划分选择依据:最大化信息增益

C4.5决策树:

划分选择依据:最大化信息增益率

无向图模型:马尔科夫随机场

团:团中所有元素均连接

image-20230105132621272

Z为归一化因子。

隐马尔科夫模型

image-20230105142913179

关于时序

状态转移矩阵

image-20230105161107698

观察矩阵

image-20230105161121284

初始状态概率向量

image-20230105161207479

隐马尔科夫模型由上述三者唯一确定:

image-20230105161250246

生成过程

image-20230105161313234

贝叶斯学习与参数估计

使得 出现概率最大即可。

Boost与Bagging:

boots串行,bagging并行

boost,会根据正确率不断调整权重,而bagging全部权重一致

Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。

Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2)样例权重:

Bagging:使用均匀取样,每个样例的权重相等

Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

Logistic模型

线性,最大似然求参数(EM)!这是需要记住的

贝叶斯分类器

• 朴素贝叶斯分类器:假设P c ( | ) x 中 x 特征向量的各维属性独立;
• 半朴素贝叶斯分类器:假设P c ( | ) x 中 x 的各维属性存在依赖;
• 正态分布的贝叶斯分类器:假设P c ( | ( )) x  服从正态分布;

找最大特征值的是PCA(主成分分析)

36

39

42

44

45

46

48

54

58

60

61

62

63

70

77

89

7

18

19

22

30

31

38

若λ较大时,偏差增大,方差减小

  1. 在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题
    (D)
    A. 增加训练集量
    B. 减少神经网络隐藏层节点数
    C. 删除稀疏的特征
    D. SVM算法中使用高斯核代替线性核
  2. 关于交叉验证,下列说法中错误的是(A )
    A. 交叉验证能够提升模型的准确率
    B. 交叉验证能够让样本数据被模型充分利用
    C. 交叉验证搭配网格搜索能够提升我们查找最优超参数组合的效率
    D. 使用网格搜索时我们一般会提供超参数的可能取值字典

SVM使用Hinge loss

  1. 下列关于k-means说法不正确的是( D )
    A. 算法有可能终止于局部最优解
    B. 簇的数目需要事先给定
    C. 对噪声和离群点敏感
    D. 适合处理非凸型数据

  2. 在机器学习中,当模型的参数量大于样本量时参数估计使用(D)
    A. 解析法
    B. 穷举法
    C. 集成法
    D. 梯度下降法

  3. 以下模型中属于贝叶斯网络的有( BD )
    A. 马尔可夫随机场
    B. 隐马尔可夫模型
    C. 条件随机场
    D. 朴素贝叶斯分类器

  4. 如果SVM模型欠拟合, 以下方法哪些可以改进模型( AD )
    A. 增大惩罚参数C的值
    B. 减小惩罚参数C的值
    C. 减小核系数(gamma参数)
    D. 增大核系数(gamma参数)

  5. 下列选项中属于实现决策树分类方法时的常见组件有( ACD )
    A. 基分类器
    B. 激活函数
    C. 剪枝方法
    D. 划分目标

  6. 以下哪些算法, 可以用神经网络去构造( BD )
    A. KNN
    B. Logistic回归
    C. 决策树
    D. 最小二乘估计

  7. 下列算法属于深度学习的是( ABD )
    A. 卷积神经网络
    B.循环神经网络
    C.决策树
    D.受限玻尔兹曼机

  8. 在机器学习中,下列关于各算法对应的损失函数正确的是( ABCD )
    A. 最小二乘-Square loss
    B. SVM-Hinge Loss
    C. Logistic Regression-交叉熵损失函数
    D. AdaBoost-指数损失函数

  9. 类别不平衡就是指分类问题中不同类别的训练样本相差悬殊的情况,例如正
    例有900个,而反例只有100个,这个时候我们就需要进行相应的处理来平衡这个
    问题,下列方法正确的是( ACD )
    A. 在训练样本较多的类别中进行欠采样
    B. 在训练样本较多的类别中进行过采样
    C. 直接基于原数据集进行学习,对预测值进行再缩放处理
    D. 通过对反例中的数据进行插值,来产生额外的反例

  10. 以下关于正则化的描述正确的是( ABCD )
    A. 正则化可以防止过拟合
    B. L1正则化能得到稀疏解
    C. L2正则化约束了解空间
    D. Dropout也是一种正则化方法

  11. 以下选项中可以用来降低欠拟合的方法有( BC )
    A. 获取更多训练数据
    B. 添加有效的数据特征
    C. 增加模型复杂度
    D. 添加正则化方法

19

  1. 以下哪些机器学习算法可以不对特征做归一化处理( AD )

    A. 随机森林 B. 逻辑回归 C. SVM D. 决策树

38.关于集成学习正确的是( BC )
A.Bagging 降低偏差
B.Bagging 降低方差
C.Boosting 降低偏差
D.Boosting 降低方差