VicTR: 视频条件的文本表示用于活动识别

Apr, 2023

VicTR: 视频条件的文本表示用于活动识别

VicTR: Video-conditioned Text Representations for Activity Recognition

Kumara Kahatapitiya, Anurag Arnab, Arsha Nagrani, Michael S. Ryoo

TL;DR本文提出了使用 VicTR 方法对视频文本模型进行优化，在视觉信息外，加入文本信息，以提高活动识别性能，实验结果证明在多个基准测试中，该方法具有竞争性能，特别是在视频文本模型的监督、零样本和少样本情况下。

Abstract

vision-language models have shown strong performance in the image-domain -- even in zero-shot settings, thanks to the availability of large amount of pretraining data (i.e., paired image-text examples). However f

vision-language models video-text models victr activity recognition pretraining data

发现论文，激发创造

VICTR：文本到图像多模式任务的视觉信息捕获文本表示

本文提出了一种新的视觉上下文文本表示方法，VICTR，用于处理文本到图像的多模态任务，通过使用图卷积网络和文本表征的结合，有效地捕捉了文本语义中的视觉特征信息，实现了在实验中得到的量化和定性的改进。

Oct, 2020

通向可泛化的视频片段检索：通过将视觉动态注入到图像 - 文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法 Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频 - 文本对齐，该方法在现有 VMR 方法的基础上取得了显著的进展。

Feb, 2023

HaVTR：利用大型基础模型改进视频 - 文本检索的方法

HaVTR 提出了一种新颖的视频 - 文本学习范式，通过数据增强和引入生成模型生成更加丰富的数据，提高视频 - 文本检索模型的表示学习能力，在多个检索基准测试中展现了优越性。

Apr, 2024

文本条件下的长篇视频理解的重新采样器

使用文本条件的视频重采样器（TCR）模块和预训练的视觉编码器和大型语言模型（LLM），我们设计了一种基于 Transformer 的采样架构，可以处理长视频序列，并通过交叉注意机制，将相关的视觉特征从视频中提取出来，并通过 LLM 生成文本响应。我们的方法在各种评估任务中表现出很好的效果，并在 NextQA、EgoSchema 和 EGO4D-LTA 挑战赛中创造了最新的最好成绩，我们还发现了需要较长视频上下文的任务，可以有效地用于进一步评估长程视频模型。

Dec, 2023

ConditionVideo: 无需训练的条件引导文本到视频生成

在本文中，我们介绍了一种无需训练的文本到视频生成方法，通过利用现有的文本到图像生成方法生成逼真的动态视频，这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比，我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

Oct, 2023

多事件视频文本检索

本研究介绍了多事件视频 - 文本检索（MeVTR）任务，旨在解决视频内容通常包含多个事件，而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever，它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明，这个简单的框架在视频到文本和文本到视频任务中胜过其他模型，为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。

Aug, 2023

利用显式高层语义提升视频文本检索

本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在 VTR 上实现了优于现有方法的性能表现。

Aug, 2022

分析视觉语言模型在视频理解任务上的零样本能力

我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究，发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能，对视频字幕能力中等，对视频问答能力较差，这些结果揭示了在避免昂贵的预训练阶段的同时，将基础图像文本模型应用于各种视频任务的益处。

Oct, 2023

从文本网络监督中学习视频表征

通过采集 70M 个公开的视频并使用相关的文本描述进行自我监督训练，本文提出了一种基于文本的学习视频表示的方法，证明了这种方法在预训练视频表示中比现有的方法更有效。

Jul, 2020

文本自适应的多视觉原型匹配用于视频检索

本文提出了一种文本自适应多视觉原型匹配模型，通过自适应聚合视频标记特征来描述视频，以解决视频和文本之间的关联模糊问题，而且此方法表现优于当前公共视频检索数据集上的最新技术。

Sep, 2022