视频检索的多模态Transformer
本文介绍了一种基于Transformer结构的双模态编码器,用于处理Dense Video Captioning任务,通过同时处理视频和音频两种输入,该模型在ActivityNet Captions数据集上取得了出色的性能表现。
May, 2020
本文提出了一种基于Tree-augmented Cross-modal Encoding的方法,用于结合学习查询的语言结构和视频的时间特征进行视频检索,以实现更好的视频检索性能。
Jul, 2020
通过对多个视频字幕数据集的正确组合,我们在MSRVTT和LSMDC基准测试上提出了一种新的文本到视频检索任务的最新技术,成果展示了在无微调的情况下,单一模型在两个数据集上实现了最先进的结果。
Mar, 2021
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
Mar, 2021
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
Dec, 2021
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零-shot检索和分类。我们在HowTo100M数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零-shot视频检索和零-shot视频行动定位的最新成果。
Dec, 2021
介绍了一种基于all-in-one Transformer的视频-语言端到端模型,采用新的token rolling操作,实现了视频数据的时间表示方式,同时赋予模型能够处理多模态输入的能力。该模型通过fine-tuning能够在文本-视频检索、视频问答、多项选择和视觉常识推理等多个数据集上达到state-of-the-art的性能表现。
Mar, 2022
提出了一种跨模态适配器(Cross-Modal Adapter)方法,对预训练模型进行参数高效微调,可在多模态模型上减少99.6%的参数、节省30%的训练时间以及共享预训练模型, 在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。
Nov, 2022
本研究通过使用两种Transformer编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐Transformer的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他SOTA基线,并在两个基准数据集上实现了显著的提升。
Aug, 2023