- 基于运动条件的扩散模型用于可控视频合成
介绍了一种使用条件扩散模型的视频合成方法(MCDiff),可以通过一组笔画控制视频的内容和动态,达到了良好的视觉效果。
- CVPR高保真自由可控的说话头部视频生成
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
- CVPR投影潜空间中的视频概率扩散模型
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与 - CVPRMAGVIT: 掩码生成式视频变换器
本研究提出了 MAgVIT,通过 3D 分词器对视频进行量化并通过视频掩码令牌建模进行多任务学习,展示了 MAgVIT 在视频生成任务中的质量、效率和灵活性,且支持多种生成任务。
- 用于生成高保真长视频的潜在视频扩散模型
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
- AAAISyncTalkFace:通过音 - 唇记忆实现精准嘴唇同步的说话人脸生成
该论文提出了一个名为 Audio-Lip Memory 的技术,使用存储在音频特征中的唇部运动信息来帮助生成与音频最匹配的嘴形,从而使得面部运动与音频之间出现了更加精细的时序一致性,实现了更高质量的谈话面部生成。
- Phenaki: 从开放领域文本描述生成可变长度的视频
该研究提出了一种名为 Phenaki 的模型,它可以根据一系列的文本提示生成逼真的视频。
- MM频域中的时域一致的人类动作转移研究
本文提出了一种名为 FreMOTR 的基于频域的人体运动转移框架,通过深入分析自然和合成视频在空间维度和时间维度的频率差异,利用频域外观正则化和时间频率正则化模块,有效缓解空间伪影和时间不一致性,进一步提高了合成视频帧级别视觉质量和时间一致 - CVPR基于音频的神经手势再现与视频运动图的应用
该论文提供了一种利用语音内容匹配身体动作的视频再现方法,通过剪辑、组合、动作建模、音频节奏搜索等技术,实现了更高质量和一致性的视频合成。
- 特征解耦的弱监督高保真超声视频合成
本文提出了一种基于动态内容图像的高保真超声图像视频综合方法,采用自我和全面监督学习,同时采用对偶编码器和 GAN 损失策略,实现了对复杂超声瞬态运动的处理,并在大量临床数据中进行了有效验证。
- ECCV基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的 - ECCVFILM: 大运动帧内插值
本文提出了一种针对大幅度中间动作的帧内插法算法,采用多尺度特征提取器的单一统一网络来进行训练,通过优化 Gram 矩阵损失实现了高质量的视频帧合成,竞争性地超越其他基于感知损失的方法,在多个基准测试中获得了更高的分数,并通过实验证明了该模型 - CVPRStyleGAN-V:具备 StyleGAN2 的价格、图像质量和特点的连续视频生成器
本文基于神经表示方法设计了一个连续时间视频生成器,提出了基于位置嵌入设计连续运动表示的思想,构建了一个聚合时间信息的完整判别器,使用该方法可以以更少的训练成本直接训练 1024x1024 的视频,并取得了优于其他同类工作的生成效果。
- CCVS: 上下文感知可控视频合成
本文提出了一种自监督学习方法,用于从旧视频剪辑中合成新视频剪辑,并介绍了多个新的关键元素,以改善其空间分辨率和逼真程度。通过对时间连续性的上下文信息和对精细控制的辅助信息进行综合利用,该方法的预测模型在自编码器的潜在空间和图像空间中进行双自 - StyleVideoGAN: 使用预训练 StyleGAN 的时间生成模型
本研究提出了一种新的视频合成方法,通过将空间域和时间域分离,利用预训练的 StyleGAN 网络的潜在空间进行训练,成功地生成了高质量的人像视频,并显著降低了所需训练数据和资源的数量。
- ICLR高分辨率视频合成需要优秀的图像生成器
本研究提出一种利用现代图像生成器解决高分辨率视频合成问题的框架,并引入一种新的跨领域视频合成任务,实现数据不连续情况下动态物体的生成。该框架具有高效率和灵活性,能够操作内容和动作以及生成质量和分辨率。
- 通过异常的协同模式检测揭示深度伪造视频
本文提出了一种全面解释的视频法医方法,旨在暴露 DeepFake,通过建模视频中多个特定空间位置的时间运动来提取强大而可靠的表示形式,称为 Co-Motion Pattern,该方法具有优越的可解释性和充分的鲁棒性。
- CVPR使用学习先验的无对抗视频合成
研究使用非对抗性学习方法,通过联合优化隐变量空间、递归神经网络的权重和生成器,从隐变量向量中生成高质量视频。
- CVPR绘制多个过去:合成油画时间变迁视频
提出了一种新的视频合成任务:合成时光流逝视频,展示给定绘画作品可能是如何创建的,通过概率模型和 CNN 的训练方案,实现了从有限的绘画时光流逝数据集中学习并合成出类似于真实艺术家制作的时光流逝视频。
- 少样本视频到视频合成
本研究提出了一种少样本 vid2vid 前景图像生成模型,利用注意力机制生成网络权重,从而实现对以前未见过的目标进行视频生成。在多个大规模视频数据集上的实验证实了该方法的有效性。