徐土豆
认证:优质创作者
所在专题目录 查看专题
一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss
参数和非参数模型——当谈到参数我在说些什么?
在深度学习中,对于特征融合方式的思考——论pointwise addition和concatenate的异同
损失函数的可视化——浅论模型的参数空间与正则
曲线拟合问题与L2正则
生成模型和判别模型的区别
作者动态 更多
[GAMES101学习笔记] 角度与立体角
3天前
Pytorch的BatchNorm层使用中容易出现的问题
5天前
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象
6天前
训练大规模对比学习的一些小笔记
1星期前
CLIP-对比图文多模态预训练的读后感
1星期前

曲线拟合问题与L2正则

本文转自徐飞翔的“曲线拟合问题与L2正则

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

曲线拟合

回想[1]我们谈到的多项式曲线拟合问题,我们这里重新描述一遍:假设我们有一个训练集,其中有N个观察值,其自变量x写作,同时,对应的观察因变量值y写作 。如下图是一组生成的数据,绿线为通过函数生成的,真实的生成曲线,蓝点是从绿线上取值后添加上噪声数据得到的。(这里的噪声可能来自于随机过程中的噪声,也可能是因为存在一些相关的变量没有被观察到)

我们的目标,就是利用训练集来训练一个模型,对于一个新的输入,可以预测出其 。这个过程中,将会隐式地学习到用来生成这个绿色曲线的。如果我们不考虑我们预测的不确定性,那么我们直接就可以采用最小化误差函数的方法进行模型参数值估计。我们假设模型为多项式模型,如下所示:

注意到,这个模型是关于的线性模型,但是并不是关于 的线性模型,像这种多项式,关于未知参数呈现线性的模型统称为线性模型(Linear Model)。为了让我们的模型尽可能的接近训练集的数据,我们引入一个所谓的误差函数(error function)去度量预测值和真实值之间的距离,一般我们可以采用平方和函数作为误差函数,从[1]中,我们将会发现,当数据噪声满足0均值高斯分布时,可以推出平方和损失函数。

下图展示了计算预测值和真实值之间的距离示意图,绿色距离之和即为所求。

因为式子(1.2)是一个关于的二次函数,关于这些系数的导数将会是一个关于 线性的,通过令其梯度的每一个分量的导数为0,我们可以知道其有一个唯一解,这个可以完全通过闭式解得到。当然也可以通过基于梯度下降的方法得到近似解[3]。模型复杂度

接下来的问题就在于如何选取超参数。如下图所示,太大,将会导致模型复杂度太大,使得模型容易过拟合[4];然而,如果M太小,则模型的复杂度太低,拟合能力差,导致欠拟合。

但是,我们需要注意的是,导致模型过拟合和欠拟合的,不仅仅和超参数的设置有关,而且很重要的一点是:和你训练集的好坏,规模也有重要的关系。如下图所示,左图是 个样本点,而右图是 个样本点,同样地采用了 的超参数设置,我们可以明显地看到,样本数量更多的一个,越符合真实的数据生成函数。不失一般地说,模型容量越大,模型复杂度越高,就需要更多的数据进行训练,以排除噪声的影响。

我们再次回到 M = 0 , 1 , 6 , 9 M=0,1,6,9 M=0,1,6,9的四种情况,我们分别观察它的 系数,我们有:

不难发现,M越大,其参数​的幅度也越大,并且是正负交错的,这使得拟合曲线有着极大的震荡,能够在训练集上精确地拟合每一个训练数值,导致其泛化性能极差。在[1]中我们将会对进行一个先验假设,通过贝叶斯理论的方法减缓这种情况的发生。然而,现在我们可以同样完成这一件事情,通过添加一个惩罚项(penalty)即可,我们称之为正则项(regularization)。形式如:

其中的惩罚项(正则项),然后调节其和平方和损失之间的重要性比例。这种正则称之为正则化,因为求模操作也被称之为范式的原因。通过引入这种正则操作,使得参数能够尽可能的小,而不会导致上面谈到的问题。这种二次正则子称为岭回归(ridge regression),在神经网络相关文献中,也称之为权值衰减(weight decay)(注意和学习率指数衰减分开)。

参考我们在[4]中曾经讨论过的,我们一般有两种方式限制模型容量,通过设置超参数进而控制模型的假设空间太困难了,比如这里的 的选取就是一个困难的事。因此我们往往采取第二种做法,添加正则项对模型进行偏好排除,我们设置一个足够大的 ,当然也不能太大,但是起码不用担心其不够容量对数据进行拟合即可,然后添加合适的正则项进行模型的偏好排除就可以较为容易地控制模型容量。这个方法也是在深度学习中经常使用的。

最后我们定量地观察下正则项前系数 对参数​的影响,如下图所示,当 的时候,可以观察到参数的确都缩小到了合适的范围。

声明:本内容为作者独立观点,不代表电子星球立场。未经允许不得转载。授权事宜与稿件投诉,请联系:editor@netbroad.com
觉得内容不错的朋友,别忘了一键三连哦!
赞 3
收藏 2
关注 49
成为作者 赚取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:28
    讲的真好!
    回复