OST: 优化时空描述符提升通用视频识别中的文本知识

Nov, 2023

OST: 优化时空描述符提升通用视频识别中的文本知识

OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

Tongjia Chen, Hongshan Yu, Zhengeng Yang, Zechuan Li, Wei Sun...

TL;DR通过将大型语言模型应用于视频领域，进行语义空间的优化，从而改善图像 - 语言模型在视频数据上的性能限制，并提高视频识别的准确性。

Abstract

Due to the resource-intensive nature of training vision-language models on expansive video data, a majority of studies have centered on adapting pre-trained image-language models to the video domain. Dominant pip

vision-language models video domain semantic space large language model video recognition

发现论文，激发创造

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

基于文本的知识助力视觉：视频行为预测的简单跨模态蒸馏

本研究将预训练语言模型中的知识转移应用于视觉模型中，以提高动作预测的效果，实验表明简单的蒸馏技术可以在两个动作预测数据集上实现一定的相对增益。

Oct, 2022

运用知识蒸馏的时空图像处理技术进行视频字幕生成

本文提出一种基于时空图模型的视频字幕生成算法，利用物体间相互作用关系提供显式的视觉表征，通过一种对象感知的知识蒸馏机制，可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验，展示了我们方法的有效性和可解释性预测的竞争性能。

Mar, 2020

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

RTQ：基于图文模型重新思考视频语言理解

我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是，即使在无视频语言预训练的情况下，我们的模型也表现出色，并且结果与或优于最先进的预训练方法。

Dec, 2023

Videoprompter: 零 - shot 视频理解的一组基础模型

本文提出了一种将预训练的判别性视觉 - 语言模型与预训练的生成性视频 - 文本和文本 - 文本模型相结合的框架，在零样本设置中引入了两个关键改进，提高了视觉 - 语言模型的性能，并在视频理解方面展示了一致的改进。

Oct, 2023

基于语言的动作概念空间改进视频自监督学习

使用自监督学习方法，对图像 CLIP 模型进行语言约束的调整，以适应视频领域，提高三个行动识别基准测试的零样本和线性探测性能。

Jul, 2023