HaVTR:利用大型基础模型改进视频 - 文本检索的方法
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
本文提出了使用 VicTR 方法对视频文本模型进行优化,在视觉信息外,加入文本信息,以提高活动识别性能,实验结果证明在多个基准测试中,该方法具有竞争性能,特别是在视频文本模型的监督、零样本和少样本情况下。
Apr, 2023
本研究介绍了多事件视频 - 文本检索(MeVTR)任务,旨在解决视频内容通常包含多个事件,而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever,它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明,这个简单的框架在视频到文本和文本到视频任务中胜过其他模型,为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。
Aug, 2023
本文介绍了利用文本 - 视频检索方法,并结合数据增强技术及多模态数据的方法,对大规模公共数据集 EPIC-Kitchens-100 的测试性能进行提升,灵敏的处理方式能以自然语言查询进行相关视频的查找。
Aug, 2022
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法 Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频 - 文本对齐,该方法在现有 VMR 方法的基础上取得了显著的进展。
Feb, 2023
通过对数据存储库中的视频采用非参数帧检索器进行预处理,将其与查询一起进行聚合,从而有效地表示长时间未修剪的视频的可扩展视频 - 语言建模新视角。在四个视频 - 语言数据集上达到了新的技术水平。
Jan, 2023
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
本文提出了一种高分辨率和多样化的视频 - 语言预训练模型(HD-VILA),它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互,取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果
Nov, 2021
我们提出了一种基于分块匹配的文本 - 视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。
Jan, 2024