ZeroI2V：从图像到视频的零成本预训练 Transformer 适应

Oct, 2023

ZeroI2V：从图像到视频的零成本预训练 Transformer 适应

ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video

Xinhao Li, Limin Wang

TL;DR提出了一种零成本适应范式（ZeroI2V）来将图像变换器应用于视频识别任务，实现图像到视频的快速转换和零额外计算成本。通过引入空间 - 时间双头注意力（STDHA）和轻量级线性适配器的线性适应策略，实现了对视频动态性和图像与视频之间的领域差异的处理，达到与先前最先进的方法相当甚至超过的参数和推理效率。

Abstract

Adapting image models to video domain is becoming an efficient paradigm for solving video recognition tasks. Due to the huge number of parameters and effective transferability of image models, performing full fine-tuning is less efficient and even unnecessary. Thus, recent research is

adaptation strategies image transformers video recognition tasks temporal modeling linear adaption strategy

发现论文，激发创造

I2V-Adapter: 视频扩散模型的通用图像到视频适配器

在 AI 驱动视频生成领域，本研究通过引入 I2V-Adapter 解决了将静态图像转化为动态视频序列的复杂挑战，保持了 T2I 模型的结构完整性和运动模块，并在保持空间细节的同时降低了可训练参数的需求，这一性能上的突破在创意应用中具备了广泛的适用性。

Dec, 2023

ST-Adapter：基于转移学习的高效图像到视频参数适配器

本文针对跨模态参数高效的图像到视频传递学习进行了研究，并提出了一种新的适应器 ——Spatio-Temporal Adapter，可以在较小的成本下实现有关动态视频内容的空时推理能力，并在视频动作识别任务上匹配或超越完全微调策略和最先进的视频模型，同时又具有参数效率的优势。

Jun, 2022

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

从图像到视频的双路径变换器自适应

本文提出了一种新的 DualPath 适应性算法，将图像 transformers 的表示能力有效地转移至视频理解中，包括空间和时间建模，极大地拓展了预训练表示的泛化，同时在四个动作识别基准测试上进行了广泛实验比较。

Mar, 2023

视觉 Transformer 的参数高效模型适应

本文研究了视觉变换器的参数高效模型适应策略，提出了一种基于局部内在维度的参数高效模型适应框架，并通过实验比较了不同方法在各项指标下的表现。结果表明，该框架在少样本下的 20 个图像分类数据集和全样本下的 7 个图像分类数据集上，在准确性和参数效率之间的平衡上表现最佳。

Mar, 2022

为高效视频动作识别调整图像模型的目标

本研究提出了一种适用于影像模型的新方法，通过添加轻量 Adapter 和冻结预训练的影像模型，实现提高影像模型的时空推理能力，该方法在四个视频行为识别基准上取得了与先前方法相当甚至更好的性能。

Feb, 2023

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

加密图像下高效微调视觉转换模型的领域适应

我们提出了一种使用视觉变换器 (ViT) 对转换图像进行模型微调的新方法，该转换图像域自适应方法不会导致模型准确度下降，基于 ViT 的嵌入结构进行实施，实验证实了该方法在使用 CIFAR-10 和 CIFAR-100 数据集的加密图像时仍能防止准确度下降。

Sep, 2023