视频与语言联系定位的多级对齐训练方案
本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法,通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间,在其中进行图像和文本之间的相关性计算,通过多级多模态注意力机制来指导模型,实现了在图像语句配对的协同注意力下的短语本地化,相比先前最先进的方法性能提升了 20%-60%,并在公共基准数据集上有了新的性能纪录。
Nov, 2018
本文提出了一种基于多层语义对齐的视觉语言预训练(MVPTR)方法,通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示,强调多模态、多层次的学习能够协同促进表示学习。
Jan, 2022
本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用 Many-to-One 匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。
Sep, 2021
我们提出了一种称为 LanguageBind 的方法,通过冻结 VL 预训练得到的语言编码器,然后使用对比学习训练其他多模态编码器,实现多模态语义对齐,同时我们还提出了 VIDAL-10M 数据集用于此目的,经过在该数据集上的预训练,我们在零样本视频文本检索方面优于 ImageBind 1.2% R@1,并且在零样本视频,音频,深度和红外理解任务方面也取得了显著改进。
Oct, 2023
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
利用视觉基础方法,通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译,尤其是对于 “视觉” 单词。同时,我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能,特别是处理少见单词和低资源语言数据时。
Mar, 2020
我们提出了 VidLA,这是一种用于大规模视频 - 语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像 - 文本基础模型来提高最终性能。此外,我们利用最近的 LLMs 构建了迄今为止规模最大的视频 - 语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。
Mar, 2024
本文提出了使用图神经网络来进行视频和文本信息的语义对齐,以识别语言查询相关的时间间隔,解决这个挑战性任务的关键是将其转化为一个基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合,使用视频 - 语言图匹配网络(VLG-Net)匹配视频和查询图,并使用掩码时刻注意力池将时刻候选项通过融合富有效果的片段特征进行生成。在 ActivityNet-Captions,TACoS 和 DiDeMo 三个常用数据集上,我们在带有语言查询的视频瞬间的时间本地化方面展示了优于现有技术水平的性能。
Nov, 2020