通过文本图像传播模型进行零样本视频编辑

Oct, 2023

通过文本图像传播模型进行零样本视频编辑

Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models

Hyeonho Jeong, Jong Chul Ye

TL;DR一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架，通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑，实现了无需训练的时间一致的多属性视频编辑，并在编辑准确度和帧一致性方面表现优于其他基准方法。

Abstract

Recent endeavors in video editing have showcased promising results in single-attribute editing or style transfer tasks, either by training text-to-video (T2V) models on text-video data or adopting training-free methods. However, when confronted with the complexities of multi-attribute

video editing multi-attribute editing ground-a-video temporally consistent zero-shot capacity

发现论文，激发创造

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位

利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务，以图文扩散模型为基础设计了一个全面的区域评分方法，证明了其在零阶视觉定位上的强大性能。

Sep, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

EVA：零射击准确属性和多对象视频编辑

EVA 是一种针对复杂动作的以人为中心的视频编辑框架，利用空间 - 时间布局引导的注意机制和精确的注意权重分布来同时编辑前景和背景，以及实现多属性和跨帧扩散特征的内在正负对应，达到精确的文字到属性操控和身份映射，从而取得实际场景下的最先进结果。

Mar, 2024

研究跨注意力对解锁零 - shot 编辑的文本到视频扩散模型的效果

最新的图像和视频扩散模型在内容创作方面取得了显著进展，为定制生成内容提供了大量技术。本文首次研究了跨注意力在零样本视频编辑中的作用，展示了在 T2V 模型中实现对物体形状、位置和运动的控制的潜力。

Apr, 2024

探索使用扩散模型的迭代细化来进行视频定位

DiffusionVG 是一个以扩散模型为基础的新框架，通过生成随机噪声输入逐步改进的逆向扩散过程，将视频定位作为一项条件生成任务，并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。

Oct, 2023

AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

AutoTVG 是一种新的视觉 - 语言预训练范式，旨在通过自动注释的未剪辑视频学习语义对齐和边界回归，从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。

Jun, 2024

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Apr, 2024

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

Ground-A-Score: 扩展属性编辑的分数提炼

通过加入定位评分，在图像编辑结果中精确反映复杂文本提示的要求，同时保留源图像中物体的完整性，我们提出了 Ground-A-Score，一种简单而强大的模型无关的图像编辑方法。

Mar, 2024