徐土豆
认证:优质创作者
所在专题目录 查看专题
曲线拟合问题与L2正则
生成模型和判别模型的区别
贝叶斯之旅||第二讲,分类问题的两大过程,推理和决策
贝叶斯之旅||第一讲,贝叶斯决策
概率学派和贝叶斯学派的区别
理解多维高斯分布
作者动态 更多
[GAMES101学习笔记] 角度与立体角
3天前
Pytorch的BatchNorm层使用中容易出现的问题
5天前
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象
6天前
训练大规模对比学习的一些小笔记
1星期前
CLIP-对比图文多模态预训练的读后感
1星期前

概率学派和贝叶斯学派的区别

本文转自徐飞翔的“概率学派和贝叶斯学派的区别

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

对于一个问题,从概率派和贝叶斯派看起来是完全不一样的,其最主要的区别就是对于一个问题中模型参数的“信仰”:

对于频率派学者来说,一个模型中的参数是“固定”的,而数据是在分布中随机采样的。我们要重点理解这个固定,这里指的固定意思是

对于一个模型或者也可说一个分布中的参数,我们相信它是固定不变的,而我们观察(采样)到的数据是这个分布中的一个独立同分布样本。也就是说,我们相信这个分布的参数不管你怎么采样,根据参数对其的估计都应该是不会变的,They remain constant!如果根据数据估计出来的参数和真实模型不符合,只可能是引入了噪声而已。在这个观点中,模型参数才是上帝,数据为之服务。

对于贝叶斯派学者来说,我们观察到的数据才是“固定”的,而我们的模型的参数才是在一直变化的。我们不停地观察数据,估计出来的模型参数就可能一直的变化。不仅如此,我们对于这个模型的参数可能会有一个最初始的信仰,称之为先验假设,一旦设置后了之后,我们就可以听由观察到的数据指导模型参数更新了。在这种观点中,我们的模型参数不再是一个参数,而是一个分布了。一般来说,对于贝叶斯派,有公式: 

其中称为后验概率,指的是由观察数据和先验假设推测出来的参数分布,而称之为先验分布,指的是对于参数的专家知识或者假设而引入的知识,可以指导参数的学习,而称之为似然函数,指的就是由于观察数据导致的参数更新。

我们举个投硬币的例子也说明下这两者区别:

Question:现在我们有一个硬币,假设朝向正面的几率为 ,朝向反面的几率为 ,这个是未知的,现在为了估计,投掷了14次,其中有10次朝向正面,问再投掷两次,都朝向正向的概率为多少。

在传统的概率派解答中,因为相信这个模型的参数是固定的,所以很容易知道 ,因此在后面投掷两次的过程中,假设都是独立过程,那么

而在贝叶斯派眼中,问题就没有那么简单了,我们相信参数不是简单的一个参数,而应该是一个随机变量,服从一个分布,那么我们就需要用观察到了的数据 去估计这个参数 的分布,利用贝叶斯公式有:

因为在已知观察中, 是固定的,所以是一个常数,不妨忽略它,有:

有:

参数可以忽略,现在对于先验假设进行假设,一般来说,我们希望这个假设是一个共轭先验(conjugate prior)1。这里用Beta分布作为硬币参数的先验假设,

其中伽马函数 定义为:

Beta分布有两个控制参数a和b,不同的a和b其CDF的形状差别很大:

在这个先验假设下,我们有:

同样的,因为 是常数项,忽略所以有:KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P\{p|data\} &\…

为了让

需要拼凑系数,可知道系数为(这里不是特别懂

其中为Beta函数,

于是最终有参数 的概率分布为:

如果我们对 毫无先验可言,那么可以令,这个时候的计算结果就和频率学派的一模一样,但是如果我们自认为对这个硬币的参数 有所了解,但是又不是完全了解,比如说我们知道这个先验应该是一个均匀分布的(也就是正面和反面都应该是0.5的,这个应该是最朴素和直观的假设了。),而均匀分布是Beta分布的一个特例,我们可以令,这个时候有:

图像如:

可以看到因为引入了这个朴素的假设,使得 变成了一个中心在 附近的钟形分布,这个时候就发现了和频率派的区别:我们的参数p是一个分布,而不只是一个数值而已。

有了 ,我们回归原问题,求:

这里用积分的原因很简单,就是因为我们的p是一个分布,其值从0到1,因此需要用积分。这里进行两个假设:

投掷硬币每一次都是独立无关的。    在这接下来的两个投掷过程中我们不更新

所以有:

所以有:

所以有:KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P\{HH|data\} &…

同样假设则有 ,从这里就看出了频率学派和贝叶斯学派的区别。

总结

频率学派和贝叶斯学派的方法优缺点概况:

频率学派是目前深度学习中最常使用的指导思想,但是要想其效果好,必须基于数据量巨大的情况下,否则很难估计出一个好的参数。(因为其不引入任何先验假设,只能从大数据中学习得到。)    贝叶斯学派的方法可以应用在数据量小的情况下,而且方便引入各种专家知识和先验知识,有些场景中表现更为优越。

实际上,频率学派和贝叶斯学派有着千丝万缕的关系,不可割裂看待,也没有孰优孰劣。

Reference

  1. Bishop 《Pattern Recognize and Machine Learning, PRML》   
  2. 《Are you a Bayesian or a Frequentist? (Or Bayesian Statistics 101)》   
  3. 《Bayesian and frequentist reasoning in plain English》   
  4. 《先验概率、后验概率以及共轭先验》
声明:本内容为作者独立观点,不代表电子星球立场。未经允许不得转载。授权事宜与稿件投诉,请联系:editor@netbroad.com
觉得内容不错的朋友,别忘了一键三连哦!
赞 5
收藏 5
关注 49
成为作者 赚取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:28
    不亚于看了一篇高质量论文
    回复
  • dy-6KE3vEwV 2021-05-12 11:53
    不亚于看了一篇高质量论文
    回复