AniPortrait：音频驱动的逼真人像动画合成

Mar, 2024

AniPortrait：音频驱动的逼真人像动画合成

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

Huawei Wei, Zejun Yang, Zhisheng Wang

TL;DR提出了 AniPortrait，这是一个由音频和参考肖像图像驱动的，用于生成高质量动画的新框架。通过从音频提取 3D 中间表示并将其投影到一系列 2D 面部标志中，然后使用强大的扩散模型和动画模块将标志序列转换为逼真且时间连续的肖像动画，实验结果表明 AniPortrait 在面部自然度、姿势多样性和视觉质量方面具有优势，因此提供了增强的感知体验。此外，我们的方法在灵活性和可控性方面具有相当大的潜力，可在面部动作编辑或面部再现等领域有效应用。

Abstract

In this study, we propose aniportrait, a novel framework for generating high-quality animation driven by audio and a reference portrait image. Our methodology is divided into two stages. Initially, we extract 3D

aniportrait animation audio-driven photorealistic facial motion editing

发现论文，激发创造

Hallo: 分层音频驱动的肖像图像动画综合

通过采用扩散法为基础的方法框架，该研究提出了一种音频驱动下的肖像图像动画技术，通过引入层次化的音频驱动视觉合成模块，实现了更准确的音频输入与视觉输出的对齐，包括嘴唇、表情和姿势的动作，并通过定性和定量分析进行综合评估。

Jun, 2024

Real3D-Portrait: 一次合成逼真的 3D 语音肖像

Real3D-Potrait 是一种框架，通过使用大型图像到平面模型和高效的运动适配器，从而改进了一次性 3D 重建的能力，实现了精确的运动条件动画，并利用头 - 躯干 - 背景超分辨率模型生成具有自然躯干运动和可切换背景的逼真视频，同时支持一次性以音频驱动的说话脸生成。与以前的方法相比，广泛的实验证明 Real3D-Portrait 对于未见过的身份具有很好的泛化能力，并生成更逼真的说话肖像视频。

Jan, 2024

实时逼真的说话人头部动画

本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统，包括从音频信号中提取深度音频特征，分析面部动态和姿态，并在最终的阶段生成逼真的面部细节。

Sep, 2021

AniPortraitGAN：从 2D 图像集合生成可动态调整的 3D 肖像

基于非结构化的 2D 图像集合，我们提出了一种可调节面部表情、头部姿势和肩膀运动的三维感知生成对抗网络，该网络能够生成多样且高质量的三维头像。

Sep, 2023

众人皆醉我独醒：让我依你所愿地说话

该研究提出了一种基于音频输入的编辑目标肖像画面的方法，通过将目标视频帧分解为表情、几何和姿势三个正交参数空间，再利用循环神经网络将源音频转化为表情参数，并在保留原始视频背景的同时合成一个逼真的人物主体，最后利用动态编程构建一个有序连贯且令人信服的逼真视频。

Jan, 2020

MyPortrait: 可塑形先导定制肖像生成

在计算机视觉领域，生成逼真的说话脸部是一个有趣且长期存在的课题。尽管已经取得了显著的进展，但是生成具有个性化细节的高质量动态脸部仍然具有挑战性。本文提出了一种简单、通用且灵活的神经画廊生成框架 Myportrait，在单目视频中加入个性化先验和三维人脸形变空间的可变先验，在新的可控参数下生成个性化细节。我们的框架支持基于视频和基于音频的面部动画，给定单个人的单目视频。通过测试数据是否发送到训练中，我们的方法提供了实时在线版本和高质量离线版本。广泛的实验证明了我们方法在各个指标上优于最先进方法。代码将公开发布。

Dec, 2023

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

深度视频肖像

该研究提出了一种新方法，可以通过输入视频实现人像视频的逼真的重新动画制作，在此过程中将源演员的全面影响转移到目标演员的画像上。

May, 2018

从单幅肖像生成可动画的 3D 卡通人脸

本文提出了一种从单幅肖像图像生成动画化的 3D 卡通脸部的新框架，并针对传统模型建立漫画形象耗时且难以保持相似性的问题，提出了基于模板和形变转移的语义保留脸部绑定方法及实时动画演示。

Jul, 2023

语义感知隐式神经音频驱动视频肖像生成

该研究提出了一种语音驱动的 Semantic-aware Speaking Portrait NeRF (SSP-NeRF) 模型，该模型可以通过两个语义感知模块处理细节本地面部语义和全局头颈关系，从而通过一个统一的神经辐射场呈现面部表情，且通过进行大规模非刚性的 Torso 变形来稳定人物的大比例非刚性运动。

Jan, 2022