徐土豆
认证:优质创作者
所在专题目录 查看专题
MoCo 动量对比学习——一种维护超大负样本训练的框架
训练大规模对比学习的一些小笔记
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题
hinge loss的一种实现方法
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象
作者动态 更多
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
1星期前
语义标签(Semantic label)与多模态模型的一些关系
2星期前
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
3星期前
【论文极速看】ERNIE 3.0 通过用知识图谱加强的语言模型
11-03 13:47
工作一年时期的土豆总结——复杂度和困难度
10-22 14:24

hinge loss的一种实现方法

hinge loss是一种常用损失[1],常用于度量学习和表征学习。对于一个模型,如果给定了样本x的标签y(假设标签是0/1标签,分别表示负样本和正样本),那么可以有两种选择进行模型的表征学习。第一是pointwise形式的监督学习,通过交叉熵损失进行模型训练,也即是如式子(1-1)所示。

其中的是softmax函数。第二种方式是将样本之间组成如的pair,通过hinge loss进行pair的偏序关系学习,其hinge loss可以描述为式子(1-2):

其中的分别表示负样本和正样本的打分,而m mm这是正样本与负样本之间打分的最小间隔。如Fig 1.所示,我们发现,而,从式子(1-2)中可以发现,只有会产生loss,而​ 则不会产生loss,这一点能防止模型过拟合一些简单的负样本,而尽量去学习难负例。

Fig 1. hinge loss的图示。

从实现的角度出发,我们通常可以采用下面的方式实现,我们简单介绍下其实现逻辑。

import torch 
import torch.nn.functional as F

margin = 0.3
for data in dataloader():
    inputs, labels = data
    score_orig = model(inputs) # score_orig shape (N, 1)
    N = score_orig.shape[0]
    score_1 = score_orig.expand(1, N) # score_1 shape (N, N)
    score_2 = torch.transpose(score_1, 1, 0) 

    label_1 = label.expand(1, N) # label_1 shape (N, N)
    label_2 = label_1.transpose(label_1, 1, 0)
	label_diff = F.relu(label_1 - label_2)
    score_diff = F.relu(score_2 - score_1 + margin)
    hinge_loss = score_diff * label_diff
    ...

为了实现充分利用一个batch内的样本,我们希望对batch内的所有样本都进行组pair,也就是说当batch size为N的时候,将会产出个pair(样本自身不产生pair),为了实现这个目的,就需要代码中expand和transpose这两个操作,如Fig 2.所示,通过这两个操作产出的score_1和score_2之差就是batch内所有样本之间的打分差,也就可以认为是batch内两两均组了pair。

Fig 2. 对score的处理流程图

与此相似的,如Fig 3.所示,我们也对label进行类似的处理,但是考虑到偏序已经预测对了的pair不需要产生loss,而只有偏序错误的pair需要产出loss,因此是label_1-label_2产出label_diff。通过F.relu()我们替代max()的操作,将不产出loss的pair进行屏蔽,将score_diff和label_diff相乘就产出了hinge loss。

Fig 3. 对label处理的流程图。

即便我们的label不是0/1标签,而是分档标签,比如相关性中的0/1/2/3四个分档,只要具有高档位大于低档位的这种物理含义(而不是分类标签),同样也可以采用相同的方法进行组pair,不过此时label_1-label_2产出的label_diff中会出现大于1的item,可视为是对某组pair的loss加权,此时需要进行标准化,代码将会改成如下:

import torch 
import torch.nn.functional as F

margin = 0.3
epsilon = 1e-6
for data in dataloader():
    inputs, labels = data
    score_orig = model(inputs) # score_orig shape (N, 1)
    N = score_orig.shape[0]
    score_1 = score_orig.expand(1, N) # score_1 shape (N, N)
    score_2 = torch.transpose(score_1, 1, 0) 

    label_1 = label.expand(1, N) # label_1 shape (N, N)
    label_2 = label_1.transpose(label_1, 1, 0)
	label_diff = F.relu(label_1 - label_2)
    score_diff = F.relu(score_2 - score_1 + margin)
    hinge_loss = torch.sum(score_diff * label_diff) / (torch.sum(label_diff) + epsilon) # 标准化处理,加上epsilon防止溢出
    ...

Reference

[1]. https://blog.csdn.net/LoseInVain/article/details/103995962, 《一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss》

声明:本内容为作者独立观点,不代表电子星球立场。未经允许不得转载。授权事宜与稿件投诉,请联系:editor@netbroad.com
觉得内容不错的朋友,别忘了一键三连哦!
赞 0
收藏 1
关注 51
成为作者 赚取收益
全部留言
0/200
成为第一个和作者交流的人吧