时间感知的视频 - 语言预训练 | BriefGPT

Jan, 2023

时间感知的视频 - 语言预训练

Temporal Perceiving Video-Language Pre-training

Fan Ma, Xiaojie Jin, Heng Wang, Jingjia Huang, Linchao Zhu...

TL;DR本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Abstract

video-language pre-training models have recently significantly improved various multi-modal downstream tasks. Previous dominant works mainly adopt contrastive learning to achieve global feature alignment across modalities. However, the →

video-language pre-training local associations text-video localization temporal boundaries state-of-the-art performance

发现论文，激发创造

LocVTP: 视频文本预训练用于时间定位

本文提出了一种面向本地化任务的视频文本预训练框架 LocVTP，通过精细对比对齐和上下文感知等机制，提高了其学到的特征的时空推理能力和传递性，实现了在四个下游任务上的最优表现。

Jul, 2022

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

学习区域的视频文本预训练

本研究提出一种新的视频文本表示学习模块（RegionLearner），能够在大规模视频文本对的预训练中考虑对象结构，并通过语义群聚来合并视觉特征，最终通过不同聚合区域之间的交互来建模，从而促进视频文本检索的效果。

Dec, 2021

视频时间定位的边界敏感预训练

本文首次探讨采用边界敏感预训练任务的方式进行时间定位的模型预训练，并在多个时间定位任务上实现了新的最先进性能，证明了该方法的有效性。

Nov, 2020

使用实体提示进行语言及视频预训练

本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提升。

Dec, 2021

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过 TEMPO 数据集进行了实验以验证模型可靠性。

Sep, 2018

T2VLAD：文本 - 视频检索的全局 - 局部序列对齐

本文主要设计了一种高效的全局 - 局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。

Apr, 2021

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015