Nov, 2023

将粒度偏差作为对比损失边际融入视频字幕生成模型

TL;DR视频字幕模型容易受到短尾分布短语的影响,导致生成含糊不清的句子,而现有的去偏置策略往往会导入外部知识来构建单词的依赖树或通过复杂的损失函数和额外的输入特征来完善频率分布,缺乏可解释性且难以训练。为了减轻模型对颗粒度偏差的影响,我们引入了一种基于统计的偏差提取方法。该提取器量化了句子和视频中的信息内容,提供了衡量视频 - 句子对受颗粒度偏差影响可能性的估计。此外,随着对比学习方法在视频字幕任务中的增长趋势,我们使用双向三元组损失在批处理中获取更多的负样本。随后,我们将边际分数纳入对比学习损失中,为头部和尾部句子建立了不同的训练目标。这种方法有助于提高模型在尾部样本上的训练效果。我们提出的简单而有效的损失函数,结合了颗粒度偏差,称为边际对比损失(GMC 损失)。所提出的模型在 MSRVTT 上展示了最先进的性能,CIDEr 达到了 57.17,而在 MSVD 上达到了 138.68。