曲线拟合问题
这里的曲线指的是多项式曲线(polynomial curve)1,如下图所示:
一般来说,概率学派按照最小化平方和误差函数,如下所示,来进行参数的学习的。
表示第j 个样本的第i ii维数据值。更新策略采用梯度下降法[4]即可更新参数,达到收敛。
用概率角度看待曲线拟合,考虑下噪声吧~但是按照上面策略进行曲线拟合是没有考虑到数据的不确定性(uncertainty)的,这种不确定性体现在数据是添加了噪声的,而基于直接估计出一个点,然后直接拟合的方式没有考虑到这种噪声。为了描述这种不确定性,我们接下来以一种概率的角度去看待曲线拟合问题。
假设我们通过多项式模型预测出来的并不是一个单纯的数字,而是一个分布,一般来说我们将其假设为是一个均值为t (也就是预测目标值),方差为 ( ,称之为精确度precision),因此预测出来的分布如下式所示:
我们之所以假设为是高斯分布,是因为我们假设数据添加的噪声是高斯噪声,既是:
图像看起就更加直观了:
可以看出,对于某一个预测,其为一个分布(蓝色线),其中预测的均值的预期就是观察值点A,可以看出,参数决定了其置信范围的大小。这个的范围可以认为是认为假设的,噪声的主要范围。
如果采用频率学派中的观点,那么就会采用极大似然法进行参数估计。似然函数如下所示:
为了计算方便转化为对数似然后,有:
为了估计出,我们用对求偏导数,并且令其为0。我们可以发现(1.5)中的后两项和并没有关系,因此可以舍弃。同时,因为的取值并不会影响的极值点,因此可以令其为。最终,我们有:
不难发现,其实(1.6)式子就是平方和损失,因此我们得出结论:平方和损失,是在假设数据噪声符合0均值高斯分布的情况下推导出的。
当然,这里的精度也可以用最大似然法估计,有:
其中的 是对权值的估计。
对参数引入先验假设,向着贝叶斯的更进一步注意到我们之前讨论的都是没有对参数w \mathbf{w}w进行任何假设的,也就是说其可以符合任何分布。这个很不贝叶斯,如果我们能对参数引入合理的先验假设,那么就能提高其泛化性能[5]。我们不妨假设w \mathbf{w}w符合高斯分布,其均值为0,方差为一个对角矩阵(既是假设每个参数之间独立,其中α \alphaα控制了每个参数的range),数学表达为:
其中M 为多项式次数。如同这样的,控制着整个模型的超空间形状的参数,称之为超参数(hyperparameters)。引入了这个先验假设后,我们模型的后验:
我们现在可以在给定了训练集的情况下,通过找到一个最可能的来估计出。换句话说,我们可以最大化这个后验概率,这个技术称之为最大后验概率法(MAximum Posterior,MAP)。取(2.2)的负对数,我们有:
结合(1.6)和(2.1),舍弃掉和无关的项之后,我们有:
令 ,于是我们就有了在正则项中最常见到的L2正则项了。于是我们得到结论:在贝叶斯理论中,L2正则项是在参数符合0均值高斯分布的情况下推导出来的,其系数决定了正则的程度。
最终一步,贝叶斯曲线拟合在上一步中,虽然我们根据最大后验法估计出了,但是对于曲线拟合来说,这并不是我们的最终目标,我们的最终目标是估计出目标值 出来。在完全的贝叶斯处理过程中,我们的估计出来的是一个分布,为了得到预测值 ,我们要用概率的加法和乘法法则,对所有可能的进行积分,得到目标值。这个操作将在贝叶斯理论中一直沿用。具体到我们的曲线拟合的例子,当我们给定了训练集的时候,当输入一个新的输入x 的时候,我们期望得到其预测值t 。也就是说我们需要得出,由概率的基本和积定理有:
其中的。可以观察到,这个均值m ( x ) 是取决于x 的,在式子(3.4)中的第一项,代表了因为目标的噪声所带来的不确定性。而第二项,表示了因为的不确定所带来的不确定性,这个正是贝叶斯处理所带来的结果。下图的绿线表示了生成样本的基线,蓝色样本表示基线上添加高斯噪声的结果,红线是预测的均值,红区域是正负1个标准差的区域。
Reference
[1] Bishop C M. Pattern recognition and machine learning (information science and statistics) springer-verlag new york[J]. Inc. Secaucus, NJ, USA, 2006.
[2] 《概率学派和贝叶斯学派的区别》
[3] 《 <机器学习系列> 线性回归模型》
[4] 《随机梯度下降法,批量梯度下降法和小批量梯度下降法以及代码实现》
[5] 《机器学习模型的容量,过拟合与欠拟合》
[6] 《先验概率、后验概率以及共轭先验》