分类三、机器学习下的文章

生成模型和判别模型区别

作者: admin
时间: 2023-07-04
分类: HMM,CRF,HMM算法,CRF算法
评论

生成模型（Generative Model）与判别模型（Discriminative Model）在机器学习领域是两种不同类型的模型，它们之间存在着显著的差异。以下是对这两种模型区别的详细分析：

一、定义与目的

生成模型：生成模型是概率统计和机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型。在给定某些隐含参数的条件下，它能够随机生成观测数据，并给观测值和标注数据序列指定一个联合概率分布。生成模型的应用十分广泛，可以用来对不同的数据进行建模，如图像、文本、声音等。
判别模型：判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法，直接对条件概率p(y|x;θ)建模。在机器学习领域，判别模型是一种基于概率理论的方法，已知输入变量x，通过构建条件概率分布P(y|x)来预测y。

二、主要区别

1、优化准则不同
生成模型：优化训练数据的联合分布概率P(X,Y)。
判别模型：优化训练数据的条件分布概率P(Y|X)。
2、对观察序列的处理不同
生成模型：将观察序列作为模型的一部分。
判别模型：将观察序列仅作为条件。
3、训练复杂度
由于需要归一化，判别模型的训练复杂度通常较高。
生成模型的训练复杂度相对较低。
4、是否支持无指导训练
生成模型支持无指导训练，即可以在没有标签数据的情况下进行训练。
判别模型通常不支持无指导训练，它依赖于标签数据来构建条件概率分布。
5、本质区别
判别模型：估计的是条件概率分布p(class|context)，即给定观测数据x，模型预测目标变量y的条件概率。
生成模型：估计的是联合概率分布p(x,y)，即同时考虑观测数据x和目标变量y的联合分布。
6、模型应用
生成模型：由于能够模拟数据的生成过程，因此在无监督学习任务（如聚类、异常检测）中表现较好。同时，生成模型在刻画复杂学习任务中的依赖关系方面也更加灵活。
判别模型：由于直接对条件概率建模，因此在有监督学习任务（如分类、回归）中通常能够取得更好的效果。特别是当不考虑x与y之间的联合分布时，判别模型可以更加专注于学习x到y的映射关系。
三、典型模型
生成模型：高斯混合模型（Gaussian Mixture Model, GMM）、隐马尔可夫模型（Hidden Markov Model, HMM）、朴素贝叶斯分类器（Naive Bayes Classifier）等。
判别模型：线性回归模型、线性判别分析（Linear Discriminant Analysis, LDA）、支持向量机（Support Vector Machine, SVM）、神经网络（Neural Network, NN）等。
综上所述，生成模型和判别模型在定义、优化准则、对观察序列的处理、训练复杂度、是否支持无指导训练以及模型应用等方面都存在显著的差异。选择哪种模型取决于具体的应用场景和需求。

机器学习中的正则化，L1 L2正则

作者: admin
时间: 2022-05-23
分类: 正则化
评论

一、重点：

L1 正则化会得到稀疏解(有的参数为0，有的参数值比较大)，可用作特征选择。
L2 正则化会得到趋于0的解(参数值都趋向比较小的值)，起到防止过拟合的作用。

二、正则化为什么能防止过拟合

数据集中的噪声点往往需要比较大的w值来拟合，也就是说w越大，模型的曲线越“陡峭”，因而网络模型能够更好得拟合噪声点，但也引起了过拟合。

在l1正则化中，某些权值刚好为0，说明某些特征被模型完全忽略。这可以看作是一种自动的特征选择。某些权值刚好为0，这样模型更容易解释，也可以呈现模型最重要的特征。

在l2正则化中，权值w会随着迭代衰减，当w很小时意味着该神经网络模型中的某些神经元实际的作用很小，可以忽略。

因此，总得来说，l1和l2正则化都是通过减小权值w，使某些神经元的作用变小甚至可以勿略，从而降低网络模型的复杂度来防止过拟合。这与dropout通过以一定的概率丢弃神经元的做法在效果上是相似的。

2.1.从图形角度来说

高维我们无法想象，简化到2维的情形，如上图所示。其中，左边是L1图示，右边是L2图示，左边的方形线上是L1中w1/w2取值区间，右边得圆形线上是L2中w1/w2的取值区间，绿色的圆圈表示w1/w2取不同值时整个正则化项的值的等高线（凸函数），从等高线和w1/w2取值区间的交点可以看到，L1中两个权值倾向于一个较大另一个为0，L2中两个权值倾向于均为非零的较小数。这也就是L1稀疏，L2平滑的效果。

2.2.从图形

-----------以下方便理解-----

一、参数方法和非参数方法

在讲正则化之前，需要介绍2个概念。机器学习的方法，可以大致分成两类。

参数方法(Parametric Methods) 通过训练来确定一组参数。当我们参数的值定下来，可以说预测的过程已经跟之前的训练集无关了，模型已经定下来了，我们只需要把测试集代入对应参数就能出结果。参数化方法的好处就是。我们的模型复杂程度不会随着训练数据的增加而增加（注意不是训练模型的复杂度，是模型的复杂程度）。举例：逻辑回归，SVM，神经网络。

非参数方法 (Non-Parametric Methods)，利用训练集本身来预测。比如K近邻算法，在训练过程中，我们并没有确定任何参数，甚至都不需要训练这个过程。但是缺点也很明显，训练集数量越大，我们模型就越复杂。当我们要预测一个新数据的时候，我们需要拿它与所有的训练数据比较。举例：KNN。

正则化，针对的主要就是参数方法。

二、复杂模型 VS 简单模型

从直觉上来说，既然它们两个模型都能准确预测我的测试样本，那当然是第一个模型简单粗暴。而且，根据奥卡姆剃刀原理（Occam's Razor, Ockham's Razor)，越是简单粗暴的东西，有时候反而越有效。

模型的复杂程度这里有个比较专业点的术语叫做，模型结构化风险。咱们这里就用模型的复杂程度比较接地气。在训练参数方法的过程中，我们不仅要关注模型的准确程度，同时也要让模型更加精简，模型复杂程度低。这不仅仅是为了计算量少，而且越精简的模型，往往泛化能力越强大！

三、降低模型复杂度

既然知道了我们要尽可能训练出简单的模型。我们要在训练的过程中，将模型的复杂度作为一项指标，参与到训练的过程中，从而约束我们的模型。

机器学习模型的训练过程，简单来说就是我们要让我们模型的输出与真实采集到的结果的误差最小。同时，我们还有一个衡量误差的指标，叫做损失函数（loss function）。

再拿最简单的线性回归来举例子。当我们说我们的线性的模型复杂度高，它的意思是什么呢？其实就是这个权重 [公式] 的每个值都很大。比如我们之前说到的两个权重向量[公式] ，[公式]，明显第二个更加复杂。所以我们的 [公式] 函数得是一个关于参数w的函数。而且w越复杂，这个值就越大。这样，就算我们的模型的误差非常小，但是模型相当复杂的话，它的损失函数也会变得非常大。

线性回归的损失函数定义（最小二乘法，就是平方和最小法）：

四、正则化

所以说，对模型正则化，就是说在训练的时候加上了一个关于模型复杂度的惩罚项，使得模型最后训练出来的参数尽量又少又小。

正则这个名字让人云里雾里地，听起来就给人一种高大上，不明觉厉的感觉（跟正则表达式没半毛线关系）。其实我觉得还不如叫做惩罚项，这样比较容易理解。

五、L1，L2比较

这个比较网上到处都是权威解释，请自行搜索相关资料。。我再说下个人的通俗点的理解。

首先，L1正则要算绝对值，算绝对值要比直接平方要复杂，这一点上L2正则胜。

当然L1的好处也很多。比如下面就是L1，L2正则的比较。左边正方形是L1正则的等值线。右边圆形代表L2等值线，右上角那个彩色的一圈圈的就是误差项的函数。最小化的时候就是这两个相交的时候。左边的L1函数图像是带一个尖角的。明显更容易相交在数轴上，就是为整数的点上，这样就会有更多的刚好为0的解。而L2相交在圆弧上，各种位置都有可能。

六、关于L1，L2正则解的稀疏性的详细数学解释

参考：
https://zhuanlan.zhihu.com/p/44899616

xgboost算法

作者: admin
时间: 2022-05-18
分类: Xgboost
评论

一、定义

xgboost是华盛顿大学博士陈天奇创造的一个梯度提升（Gradient Boosting）的开源框架。至今可以算是各种数据比赛中的大杀器，被大家广泛地运用。

- 阅读剩余部分 -

gbdt算法总结

作者: admin
时间: 2022-05-18
分类: GBDT
评论

一、定义

GBDT(Gradient Boosting Decision Tree)（梯度提升决策树）
定义：是为了解决一般损失函数的优化问题，

- 阅读剩余部分 -

CART算法

作者: admin
时间: 2022-05-17
分类: CART
评论

一、定义

CART全称为classification and regression tree，即分类与回归树。CART特征选择算法既可以用于分类树也可以用于回归树。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树，内部节点特征的取值为“是”和“否”。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

- 阅读剩余部分 -

分类三、机器学习下的文章

生成模型和判别模型区别

一、定义与目的

二、主要区别

机器学习中的正则化，L1 L2正则

一、重点：

二、正则化为什么能防止过拟合

2.1.从图形角度来说

2.2.从图形

-----------以下方便理解-----

一、参数方法和非参数方法

二、复杂模型 VS 简单模型

三、降低模型复杂度

四、正则化

五、L1，L2比较

六、关于L1，L2正则解的稀疏性的详细数学解释

xgboost算法

一、定义

gbdt算法总结

一、定义

CART算法

一、定义

最新文章

最近回复

分类

归档

其它

分类 三、机器学习 下的文章

生成模型和判别模型区别

一、定义与目的

二、主要区别

机器学习中的正则化，L1 L2正则

一、重点：

二、正则化为什么能防止过拟合

2.1.从图形角度来说

2.2.从图形

-----------以下方便理解-----

一、参数方法和非参数方法

二、复杂模型 VS 简单模型

三、降低模型复杂度

四、正则化

五、L1，L2比较

六、关于L1，L2正则解的稀疏性的详细数学解释

xgboost算法

一、定义

gbdt算法总结

一、定义

CART算法

一、定义

最新文章

最近回复

分类

归档

其它

分类三、机器学习下的文章