少样本视频到视频合成

Oct, 2019

Few-shot Video-to-Video Synthesis

Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz...

TL;DR本研究提出了一种少样本 vid2vid 前景图像生成模型，利用注意力机制生成网络权重，从而实现对以前未见过的目标进行视频生成。在多个大规模视频数据集上的实验证实了该方法的有效性。

Abstract

Video-to-video synthesis (vid2vid) aims at converting an input semantic video, such as videos of human poses or segmentation masks, to an output photorealistic video. While the state-of-the-art of →

vid2vid few-shot learning image synthesis video synthesis generalization

发现论文，激发创造

基于世界一致性的视频到视频合成

提出了一种新颖的 vid2vid 框架，它使用所渲染的所有过去帧来生成当前帧，并通过引入物理基础的 guidance image 来提高 3D 世界的一致性，并使用新颖的神经网络架构利用存储在 guidance image 中的信息。

Jul, 2020

视频到视频合成

本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法，可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频，此方法成功优化了视频生成技术的最新发展状态，并被应用于未来视频预测。

Aug, 2018

快速视频生成：用于视频合成的时空压缩

本文提出了一种名为 Fast-Vid2Vid 的新型空间时间压缩框架，旨在减少计算资源并加速推理，通过对生成模型的数据方面进行压缩处理，使模型实现低分辨率数据流合成 / 高效中间帧插值，并在标准基准测试中实现约 20 FPS 的实时性能，同时在单个 V100 GPU 上节约约 8 倍的计算成本。

Jul, 2022

Vid2Actor: 野外视频中基于自由视点的动态人物合成

通过视频重建一个可动画的模型，运用深度学习网络训练产生了一种体积式 3D 人体表达，实现了新颖的姿态 / 视角的综合和不需要预先装配模型的图像合成。研究证明了该模型的有效性并展示了不同人的视频实验结果以及模型的运用：运动重定向和子弹时间效果。

Dec, 2020

鲁棒单张音频到视频生成

本研究提出了一种名为 OneShotA2V 的新方法，该方法利用具有表现性面部组件的运动的课程学习，仅使用一个听觉信号和一个未见过的个人图像，生成任意长度的交谈人视频，实验评估表明该方法在多个量化指标上表现优越。

Dec, 2020

MetaPix: 少样本视频重定向

使用元学习实现个性化无监督转化行为的普适解码器。

Oct, 2019

具有语义感知先验的可控一次性人脸视频合成

使用人脸先验信息的新方法，通过对源面部解析并对其几何形状进行正则化，可以在可接受的带宽下生成带有改善的语义一致性和表情保持的面部视频，并实现高度可控的姿态和表情生成。

Apr, 2023

利用合成数据集的视频到视频转换

一项针对基于文本的视频编辑的新型高效方法，通过自动生成适用于视频转换任务的合成配对视频数据集，用于视频图像编辑指令的转换，并采用长视频采样校正以确保一致性。该方法超越了现有的方法（如 Tune-A-Video），在基于文本的视频编辑方面取得了显著进展，并提出了更多领域探索和应用的激动人心的方向。

Nov, 2023

姿势引导的人体视频生成

本文提出了一种基于姿态引导的方法来以可分离的方式合成人类视频：可信的运动预测和协调的外观生成，旨在探索并掌握视频合成中人体姿态的本质动态和诠释能力，并在保持外观连贯性的同时处理异常和嘈杂数据，实验证明其优于现有技术。

Jul, 2018

跟随你的姿势：使用无姿态视频进行姿势引导的文本到视频生成

本研究提出一种新的双阶段训练方法，可利用易获得的数据集和预训练的 text-to-image（T2I）模型，生成可编辑和姿态可控的字符视频。这种方法成功地生成了连续的姿态可控字符视频，同时保持了预训练 T2I 模型的编辑和概念构成能力。

Apr, 2023