多层次语言和视觉融合的文本到视频检索

AAAIApr, 2018

多层次语言和视觉融合的文本到视频检索

Multilevel Language and Vision Integration for Text-to-Clip Retrieval

Huijuan Xu, Kun He, Bryan A. Plummer, Leonid Sigal, Stan Sclaroff...

TL;DR本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Abstract

We address the problem of text-based activity retrieval in video. Given a sentence describing an activity, our task is to retrieve matching clips from an untrimmed video. To capture the inherent structures present in both text and video, we introduce a →

text-based activity retrieval multilevel model vision and language integration fine-grained similarity metric recurrent neural network

发现论文，激发创造

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021

高效且有效的文本到视频检索：基于粗粒度到细粒度的视觉表征学习

通过多粒度视觉特征学习和二阶段检索体系结构，本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法，同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习，从而实现了与当前最先进方法相媲美的性能，且速度快近 50 倍。

Jan, 2024

穿越时间：视频活动的有效定位

本文介绍了一种基于强化学习的视频定位技术，使用文本和视频的精细特征表示来准确定位语言查询中的片段，并仅浏览整个视频的 32-41% 以节约处理时间。

Apr, 2019

使用自然语言描述实现提取式视频剪辑定位

该文章提出了一种新的、能够利用文本和视频间的交互，预测起始和结束帧的提取方法，以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示，该方法在多项实验和去除分析中表现显著，比现有技术提升了性能。

Apr, 2019

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

多模态大型语言模型对视频片段检索的惊人有效性

利用图像 - 文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023