LocVTP: 视频文本预训练用于时间定位

ECCVJul, 2022

LocVTP: 视频文本预训练用于时间定位

LocVTP: Video-Text Pre-training for Temporal Localization

Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang...

TL;DR本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP，通过精细对比对齐和上下文感知等机制，提高了其学到的特征的时空推理能力和传递性，实现了在四个下游任务上的最优表现。

Abstract

video-text pre-training (VTP) aims to learn transferable representations for various downstream tasks from large-scale web videos. To date, almost all existing VTP methods are limited to retrieval-based downstrea

video-text pre-training transferable representations localization-based tasks locvtp temporal reasoning ability

发现论文，激发创造

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

VoP: 跨模态检索的文本 - 视频协同提示调整

本文提出 VoP 框架，结合视频和文本提示来提高文本 - 视频检索任务的效率和性能，相比使用 full fine-tuning 更加高效，在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益，并且仅需要 6 倍于 full fine-tuning 的可训练参数

Nov, 2022

VLAB: 通过特征调整和混合增强视频语言预训练

本文提出了一种名为 VLAB 的新型视频 - 文本预训练方法，通过特征适应和融合扩展了 CLIP 的能力并构建统一的视频多模态模型，验证了其在视频文本检索、视频字幕生成和视频问答等高竞争任务中的有效性和多功能性。

May, 2023

LSTP：语言引导的时空提示学习长文视频文本理解

通过引入一种名为语言导向的时空提示学习（LSTP）的新方法，利用时间信息高效提取相关视频内容，并巧妙捕捉视觉和文本元素之间的复杂空间关系，从而显著提高计算效率、时间理解和时空对齐，通过两个挑战性任务的实证评估，证明了我们提出的 LSTP 范型在视频问答和视频中的时间问题定位方面具有卓越的性能、速度和多功能性。

Feb, 2024

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

从自然剧本知识中学习可转移的时空表示

本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法，通过将视觉模型与自然转录的语言知识结合起来，使视频模型能够在时间上建立背景并重塑叙述性的转录，从而实现在多样化数据集上表现出色。

Sep, 2022

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

TempCLR：具有对比学习的时间对齐表示法

该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR，通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离，它可以探索时间动态，并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。

Dec, 2022

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021