将粒度偏差作为对比损失边际融入视频字幕生成模型

Nov, 2023

将粒度偏差作为对比损失边际融入视频字幕生成模型

Incorporating granularity bias as the margin into contrastive loss for video captioning

Jiayang Gu, Fengming Yao

TL;DR视频字幕模型容易受到短尾分布短语的影响，导致生成含糊不清的句子，而现有的去偏置策略往往会导入外部知识来构建单词的依赖树或通过复杂的损失函数和额外的输入特征来完善频率分布，缺乏可解释性且难以训练。为了减轻模型对颗粒度偏差的影响，我们引入了一种基于统计的偏差提取方法。该提取器量化了句子和视频中的信息内容，提供了衡量视频 - 句子对受颗粒度偏差影响可能性的估计。此外，随着对比学习方法在视频字幕任务中的增长趋势，我们使用双向三元组损失在批处理中获取更多的负样本。随后，我们将边际分数纳入对比学习损失中，为头部和尾部句子建立了不同的训练目标。这种方法有助于提高模型在尾部样本上的训练效果。我们提出的简单而有效的损失函数，结合了颗粒度偏差，称为边际对比损失（GMC 损失）。所提出的模型在 MSRVTT 上展示了最先进的性能，CIDEr 达到了 57.17，而在 MSVD 上达到了 138.68。

Abstract

video captioning models easily suffer from long-tail distribution of phrases, which makes captioning models prone to generate vague sentences instead of accurate ones. However, existing debiasing strategies tend

video captioning debiasing strategies granularity bias contrastive learning performance

发现论文，激发创造

使用细粒度帧采样的对比视频语言学习

FineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样，以更好地学习视频和语言表示，从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果，尤其是在 YouCookII 上实现了最先进的性能。

Oct, 2022

通过自适应边缘提升视频检索

本研究提出了一种自适应边界训练机制，称为 CMGSD，通过计算正负实例的距离调整边界，以改善视频检索中的两个问题，即负样本之间的语义联系及性能下降，并利用 CMGSD 的优势在三个广泛使用的数据集上获得更好的性能。

Mar, 2023

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023

双模态注意力增强的文本 - 视频检索与三元局部对比学习

通过改进对比学习方法，引入新的技术，分别利用文本和视觉线索，从中挖掘出困难负样例，并且能够自适应地确定它们对训练损失的影响；同时，通过构建部分有序三元组样本来模拟细粒度语义相似性，以提高文本 - 视频检索的性能。

Sep, 2023

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

支持集瓶颈用于视频 - 文本表示学习

本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法，以确保表征不过度特化于个别样本，可以在数据集中重复使用，并且结果表明，相对于噪声对比学习，我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频 - 文本检索性能。

Oct, 2020

X-CLIP: 视频文本检索的端到端多粒度对比学习

本篇论文提出了一种名为 X-CLIP 的多层次对比模型，通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别，大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上，X-CLIP 相较于之前最先进的模型提升了 6.3％至 11.1％，证明了多层次对比模型和 AOSM 模块的优越性。

Jul, 2022

不是所有的负样本都相等：针对细粒度文本分类的标签感知对比损失

本文分析了在细粒度文本分类任务情感分类和情感分析中预训练语言模型的对比微调。适应性嵌入类关系的对比目标函数可以有助于不同地权衡正面和负面情感，使得 Label-aware Contrastive Loss 在更多混淆类别的情况下表现更好。

Sep, 2021

基于全局 - 局部辨别目标的细粒度图像描述

研究了如何提高生成图片标题的准确性，通过设计全局和局部辨别性约束，使生成的标题更加精细化和具体化，并在 MS-COCO 数据集上进行了评估和自检实验。

Jul, 2020

COSMO：简化的对比多模态流模型与交错预训练

在视觉语言预训练的演变过程中，从短文理解到包含扩展文本上下文具有关键作用。通过引入对比损失到文本生成模型中，本文提出了一种结合对比学习和多模态处理的统一框架 (ModelName)，在涉及文本和视觉数据的任务中，显著提高模型性能，同时降低学习参数。此外，本文介绍了一个首个交叉视频 - 文本数据集 (VideoDatasetName)，通过全面的字幕，进一步增强模型在图像 - 文本任务中的性能。

Jan, 2024