徐土豆
认证:优质创作者
所在专题目录 查看专题
数据,模型,算法共同决定深度学习模型效果
一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss
参数和非参数模型——当谈到参数我在说些什么?
在深度学习中,对于特征融合方式的思考——论pointwise addition和concatenate的异同
损失函数的可视化——浅论模型的参数空间与正则
曲线拟合问题与L2正则
作者动态 更多
【论文极速看】ERNIE 3.0 通过用知识图谱加强的语言模型
2星期前
工作一年时期的土豆总结——复杂度和困难度
10-22 14:24
【见闻录系列】我所理解的“业务”
10-19 11:25
markdown数学公式编辑
10-17 13:58
在linux系统上部署FTP服务时进行权限管理(利用chown,chmod命令实现)
10-09 10:24

数据,模型,算法共同决定深度学习模型效果

本文转自徐飞翔的“数据,模型,算法共同决定深度学习模型效果

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

在文献[1]中对few-shot learning进行了很好地总结,其中提到了一个比较有意思的观点,这里和大家分享下。先抛开few-shot learning的概念,我们先从几个基本的机器学习的概念进行分析。

期望风险最小化(expected risk minimization): 假设数据分布已知,其中是特征, 是标签,在给定了特定损失函数 的情况下,对于某个模型假设,我们期望机器学习算法能够最小化其期望风险,期望风险定义为:

假如模型的参数集合为,那么我们的目标是:

经验风险最小化(empirical risk minimization): 实际上,数据分布通常不可知,那么我们就不能对其进行积分了,我们一般对该分布进行采样,得到若干个具有标签的样本,我们将其数量记为,那么我们用采样结果对这个分布进行近似,因此,我们追求最小化经验风险,这里的经验(experience)的意思也就是指的是采样得到的数据集:

此处的经验风险(3)就可以近似期望风险(1)的近似进行最小化了(当然,在实践中通常需要加上正则项)。

我们进行以下三种表示:

其中(4)表示最小化期望风险得到的理论上最优的假设,(5)表示在指定的假设空间 中最小化期望风险得到的约束最优假设,(6)表示在指定的数据量为的数据集上进行优化,并且在指定的假设空间 下最小化经验风险得到的最优假设​。

因为我们没办法知道,因此我们没办法求得 ,那么作为近似, 是在假定了特定假设空间时候的近似,而 是在特定的数据集和特定假设空间里面的近似。进行简单的代数变换,我们有(7):

其中用 表征了在期望损失下,在给定的假设空间下的最优假设 能多接近最佳假设。而 表示了在给定假设空间下,对经验风险进行优化,而不是对期望风险进行优化造成的影响。不失特别的,我们用​表示整个训练集,有

我们不难发现,整个深度模型算法的效果,最后取决于假设空间和训练集中数据量 。换句话说,为了减少总损失,我们可以从以下几种角度进行考虑:

    数据,也就是

    模型,其决定了假设空间

    算法,如何在指定的假设空间 中去搜索最佳假设以拟合 ​。

通常来说,如果 ​数据量很大,那么我们就有充足的监督信息,在指定的假设空间 中,最小化 得到的就可以提供对 的一个良好近似。然而,在few-shot learning (FSL)中,某些类别的样本数特别少,不足以支撑起对良好假设的一个近似。其经验风险项 和期望风险项可能有着很大的距离,从而导致假设​过拟合。事实上,这个是在FSL中的核心问题,即是 经验风险最小假设 变得不再可靠。整个过程如Fig 1所示,左图有着充足的样本,因此其经验风险最小假设相当接近,在 设计合理的情况下,可以更好地近似。而右图则不同,都比较远,跟别说和 了。

Fig 1. 样本充足和样本缺乏,在学习过程中结果的示意图。

为了解决在数据量缺少的情况下的不可靠的经验风险问题,也就是FSL问题,我们必须要引入先验知识,考虑到从数据,模型,算法这三个角度分别引入先验知识,现有的FSL工作可以被分为以下几种:

数据。在这类型方法中,我们利用先验知识去对 ​进行数据增广(data augment),从数据量提高到,通常> I" />。随后标准的机器学习算法就可以在已经增广过后的数据集上进行。因此,我们可以得到更为精确的假设 ​。如Fig 2 (a)所示。模型。这类型方法通过先验知识去约束了假设空间  的复杂度,得到了各位窄小的假设空间 。如Fig 2 (b) 所示。灰色区域已经通过先验知识给排除掉了,因此模型不会考虑往这些方向进行更新,因此,往往需要更少的数据就可以达到更为可靠的经验风险假设。    算法。这类型的方法考虑使用先验知识,指导如何对 进行搜索。先验知识可以通过提供一个好的参数初始化,或者指导参数的更新步,进而影响参数搜索策略。对于后者来说,其导致的搜索更新步由先验知识和经验风险最小项共同决定。

Fig 2. 分别从数据,模型和算法三个角度去引入先验知识。

Reference

[1]. Wang Y, Yao Q, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[M]//arXiv: 1904.05046. 2019.

声明:本内容为作者独立观点,不代表电子星球立场。未经允许不得转载。授权事宜与稿件投诉,请联系:editor@netbroad.com
觉得内容不错的朋友,别忘了一键三连哦!
赞 4
收藏 3
关注 50
成为作者 赚取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:29
    对我很有帮助
    回复