视频与语言联系定位的多级对齐训练方案
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块(CMA)和针对此任务的新回归损失函数来提高定位精度,并在Charades-STA和ActivityNet Captions数据集上超越了目前最先进的方法。
Sep, 2020
本文提出了一种基于弱监督学习的弱时间语言接地算法,该算法通过利用时间相邻网络在多个实例学习(MIL) 范式中学习跨模式语义对齐,同时引入互补分支和自我区分损失函数以增强语义判别能力。实验结果表明该方法非常有效。
Jun, 2021
本文提出了一种Hierarchical Alignment Network框架,通过把视频和文本分解成三个层次,即事件-动作-实体水平,并在个体-局部-全局层次上构建层次表示,捕捉视频和文本之间的从精细到粗略的对应关系,从而最大化利用三个语义层次的互补信息,以实现视频文本检索和匹配任务的高效和精度。实验结果表明,所提出的框架在两个公共数据集上优于其他最先进的方法,证明了层次表示和匹配的有效性。
Jul, 2021
本文提出了Clover方法,通过一种新颖的三模式对齐预训练任务,提高了跨模式特征对齐和融合,同时通过从语义掩蔽样本学习和新的成对排名损失增强三模式对齐。Clover在多个下游任务中取得了新的最先进水平,包括零-shot和微调设置下的三个检索任务和八个视频问答任务。
Jul, 2022
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务,通过跨模态平行变压器解码器将其编码为最终的基础。
Aug, 2022
通过在英语、阿拉伯语和德语等语言间建立隐式的视觉及语言空间交互,研究探讨跨语言的词嵌入的视觉基础。结果表明,跨语言知识可以增强相似语言的嵌入性能,但德语或英语与阿拉伯语之间的跨语言基础稍有劣化,在归类基准上,阿拉伯语对英语改进最多。该实验为跨语言视觉基础的进一步研究提供了基础。
Sep, 2022
本文提出了一种名为CONE的窗口层级的粗细粒度多模态对齐框架,该框架通过使用对比学习进行识别候选窗口和排名候选时刻,从而提高视频时序定位的精确度和效率,在两个大规模视频时序定位基准测试中均取得了业界最佳成果。
Sep, 2022
本篇论文提出了一种新的候选不受限制的方法——Fine-grained Semantic Alignment Network(FSAN),用于弱监督的Temporal Language Grounding任务,在两个广泛使用的基准测试中取得了最先进的性能。
Oct, 2022
我们提出了一种称为LanguageBind的方法,通过冻结VL预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了VIDAL-10M数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。
Oct, 2023
我们提出了VidLA,这是一种用于大规模视频-语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像-文本基础模型来提高最终性能。此外,我们利用最近的LLMs构建了迄今为止规模最大的视频-语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。
Mar, 2024