徐土豆
认证:优质创作者
所在专题目录 查看专题
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型
在多模态模型训练时,如何合适地融合单模态损失
FILIP: 一种基于交互的细粒度图文预训练模型
ERNIE VIL 2.0,多模态模型的一种多视角预训练范式
VQ-VAE的实现方法分析——一种基于梯度回调的方法
【论文极速读】视频检索中的模态均衡方法
作者动态 更多
【论文极速看】ERNIE-VIL 一种基于场景图解析的多模态表征方法
1星期前
语义标签(Semantic label)与多模态模型的一些关系
2星期前
BLIP2——采用Q-Former融合视觉语义与LLM能力的方法
3星期前
【论文极速看】ERNIE 3.0 通过用知识图谱加强的语言模型
11-03 13:47
工作一年时期的土豆总结——复杂度和困难度
10-22 14:24

【论文极速读】视频检索中的模态均衡方法

传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段,其模型的输入基本上都是文本,并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量(此处的视觉语义向量可以是上游模型的产出,比如CLIP的产出),那么很容易遇到所谓的『模态不均衡』的问题,即是由于文本匹配更为简单(毕竟骨架网络都是基于文本进行过很多次迭代了),那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声,或者被忽视,其视觉本身的作用不容易建模出来。在论文[1]中,作者同样报告了这样一个现象,并且提出了通过『模态混洗(Modality-Shuffle)』的方法进行优化,整个框架被称之为MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,对于一个文本-视觉成对的样本,通过在batch内混洗视觉输入,得到难负样本,此时对于其文本检索而言,是匹配的,但和视觉 不匹配,通过这种方法构建出的难负样本,有利于加强视觉特征的作用力度。

Fig 1. 模态混洗的方式构建出文本匹配,但是视觉不匹配的难负样本。除此之外,作者还提出用动态margin去建模,不过笔者觉得并不关键,因此就不阐述了。从整体来看,其loss如公式(1-1)所示,其中的​ ,表示Query-Doc匹配和Doc-Query匹配的损失,表示的匹配损失,同理表示了的匹配损失,而即是通过模态混洗构建难负样本带来的损失,如公式(1-2)所示,其中的表示构建出来的模态混洗负样本。

那么如何验证效果呢?作者进行了一些离线消融实验,并且进行了线上实验(该论文来自于快手,本方案应该是在线上进行了实验),均发现有所收益,这些常规指标就不在这里累述了。同时作者通过定向的分析,验证了模态混洗带来的优势,如公式(1-3)所示,作者定义了一个,其中的分别表示视觉、文本以及联合视觉文本模型的表征,那么指数表示了视觉在该联合模型中,占据的重要程度与文本在该联合模型中占据的重要程度的比例,这个值越高表示了视觉在模型中地位越重。(注,此处的联合模型可表示为

在Fig 2 (a) 中,作者对基线模型和MBVR模型的R v t R_{vt}R vt​ 分布的绘制,我们可以明显看出引入了MBVR之后,视觉特征在视文联合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了,同时作者在Fig 2 (b)和(c)中对比了正样本和难负样本在基线模型和MBVR模型中的打分分布变化,可以明显看出引入了MBVR模型之后,难负样本打分更低,和正样本打分分布产生了明显的变化。

Fig 2. (a) R值分布变化,引入了MBVR之后视觉的作用力度有明显提升;(b)基线模型中,正样本和难负样本区分度小,(c)引入了MBVR之后,正样本和难负样本有了明显的区分度。

笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的,模态不均衡的问题在实际落地过程中真实存在,作者提出的解决方法不失一种有效可行的手段,在构造MS难负样本这块,后续可以继续探索,构造一些更合适的难负样本应该是有一定收益空间的。同时,也可以引入类似于MLM的,某种跨模态mask机制,去建模模态间的关系,笔者认为同样可以缓解模态不均衡的问题。

Reference

[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

声明:本内容为作者独立观点,不代表电子星球立场。未经允许不得转载。授权事宜与稿件投诉,请联系:editor@netbroad.com
觉得内容不错的朋友,别忘了一键三连哦!
赞 1
收藏 2
关注 51
成为作者 赚取收益
全部留言
0/200
成为第一个和作者交流的人吧