通过改进对比学习方法,引入新的技术,分别利用文本和视觉线索,从中挖掘出困难负样例,并且能够自适应地确定它们对训练损失的影响;同时,通过构建部分有序三元组样本来模拟细粒度语义相似性,以提高文本 - 视频检索的性能。
Sep, 2023
视频字幕模型容易受到短尾分布短语的影响,导致生成含糊不清的句子,而现有的去偏置策略往往会导入外部知识来构建单词的依赖树或通过复杂的损失函数和额外的输入特征来完善频率分布,缺乏可解释性且难以训练。为了减轻模型对颗粒度偏差的影响,我们引入了一种基于统计的偏差提取方法。该提取器量化了句子和视频中的信息内容,提供了衡量视频 - 句子对受颗粒度偏差影响可能性的估计。此外,随着对比学习方法在视频字幕任务中的增长趋势,我们使用双向三元组损失在批处理中获取更多的负样本。随后,我们将边际分数纳入对比学习损失中,为头部和尾部句子建立了不同的训练目标。这种方法有助于提高模型在尾部样本上的训练效果。我们提出的简单而有效的损失函数,结合了颗粒度偏差,称为边际对比损失(GMC 损失)。所提出的模型在 MSRVTT 上展示了最先进的性能,CIDEr 达到了 57.17,而在 MSVD 上达到了 138.68。
Nov, 2023
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
Jun, 2020
本文提出了一种使用生成模型来自然地将相关样本聚集在一起的新方法,以确保表征不过度特化于个别样本,可以在数据集中重复使用,并且结果表明,相对于噪声对比学习,我们的方法在 MSR-VTT、VATEX、ActivityNet 和 MSVD 上取得了更好的视频 - 文本检索性能。
Oct, 2020
介绍了将 MBVR 应用于大型视频平台的实践,该方法采用人工生成的模态混洗样本和基于视觉相关性的动态边距(DM),旨在鼓励视频编码器对每种模态进行平衡关注,通过实验证明了该方法在解决模态偏见问题方面的有效性和高效性。
Apr, 2022
该文提出了一种度量学习框架下使用互相匹配网络来解决视频时序定位问题,通过构造负交叉模态对和跨不同视频的负对样本来增强联合表示学习的性能,实验表明该方法在四个视频时序定位基准测试上取得了与最先进方法相比高度竞争的表现,并为第三个 PIC 研讨会的 HC-STVG 挑战赛提供了获胜解决方案。
Sep, 2021
本研究提出了一种自我对比学习框架来在弱监督的条件下解决基于查询的视频定位任务,通过学习针对查询语义的逐帧匹配分数以预测可能的前景帧,并采用粗到细的对比学习方法来区分误检的帧,从而提高了视频定位的准确性。
Mar, 2022
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明,该方法具有很高的有效性。
Mar, 2021
近年来,多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索(MVMR)任务,用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法,并介绍了三个 MVMR 数据集。针对这个任务,我们还开发了一个强大的模型,即可靠的互补匹配网络(RMMN),该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明,与现有的 NLVL 模型相比,我们的模型在 MVMR 任务中表现出显著的性能优势。
Aug, 2023
本文提出一种新的逐步自适应最大边界(SAM)公式,通过推断在训练期间的三元约束,从而通过自适应地强制执行类别之间和模态之间的相关性,组织实例。在广泛使用的数据集上,实验证明了 SAM 方法的相对改进,达到了比第二佳方法高约 12.5% 的效果,从而确认了我们的可调自适应边界公式的有效性。
Sep, 2019