嵌入式表征学习网络实现风格化视频肖像动画

Apr, 2024

嵌入式表征学习网络实现风格化视频肖像动画

Embedded Representation Learning Network for Animating Styled Video Portrait

Tianyong Wang, Xiangyu Liang, Wangguandong Zheng, Dan Niu, Haifeng Xia...

TL;DR針對話頭生成中的風格可控性和頸部位移問題，我們提出了一種新的生成範例學習網絡（ERLNet），通過兩個學習階段的協作，成功實現了比現有算法更逼真的話頭生成。

Abstract

The talking head generation recently attracted considerable attention due to its widespread application prospects, especially for digital avatars and 3D animation design. Inspired by this practical demand, several works explored →

talking head generation neural radiance fields style-controllable displacement artifacts embedded representation learning network

发现论文，激发创造

语义感知隐式神经音频驱动视频肖像生成

该研究提出了一种语音驱动的 Semantic-aware Speaking Portrait NeRF (SSP-NeRF) 模型，该模型可以通过两个语义感知模块处理细节本地面部语义和全局头颈关系，从而通过一个统一的神经辐射场呈现面部表情，且通过进行大规模非刚性的 Torso 变形来稳定人物的大比例非刚性运动。

Jan, 2022

AD-NeRF：音频驱动的神经光辐射场用于说话人头部合成

本文提出了一种基于神经场景表示网络的方法来生成高保真度的会说话头部视频，采用条件隐式函数和动态神经辐射场来直接从输入音频信号生成视频，并支持自由调整音频信号，视角和背景图像。

Mar, 2021

NeRFFaceSpeech：一次性音频驱动的 3D 说话头合成基于生成先验

使用 NeRF 和生成模型的先验知识，提出了一种名为 NeRFFaceSpeech 的新方法，通过空间同步和补全缺失信息，实现了从单一图像生成具有增强的 3D 一致性的语音驱动的说话头部。

May, 2024

AE-NeRF: 音频增强的神经辐射场用于少样本说话头合成

本文提出了一种名为 AE-NeRF 的音频增强神经辐射场模型，该模型能够生成具有少量样本的新演讲者的逼真肖像。实验证明，AE-NeRF 在图像保真度、音频嘴唇同步和泛化能力方面超过了现有技术，即使在有限的训练数据或训练迭代次数下也能取得优异结果。

Dec, 2023

高保真语音与图像合成的高效区域感知网络燃射场

本论文提出了一种名为 ER-NeRF 的新型条件神经辐射场（NeRF）架构，用于对话肖像合成，可以同时实现快速收敛、实时渲染和小型模型的最新性能。

Jul, 2023

基于人脸属性神经渲染的个性化语音头像生成

本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像，并利用大量数据观察到输入音频与唇部运动高度相关，提出一种条件分解方法，其中唇部运动直接从音频输入中预测来实现同步生成，同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明，该方法实现了远优于现有方法的成果。

Jan, 2022

NeRF-AD: 基于注意力解耦的神经辐射场对话人脸合成

通过引入基于注意力的解缠模块（NeRF-AD），本文提出了一种基于 Neural Radiance Field 的语音驱动说话人脸合成方法，可以生成逼真且具有嘴唇同步效果的说话人脸视频。

Jan, 2024

GeneFace：通用高保真音频驱动的 3D 人脸合成

研究提出了一种新的通用高保真 NeRF-based 说话人脸生成方法 GeneFace，并且在大规模口型阅读语料库的基础上，学习了一个变分运动生成器，并引入了一个域自适应后置网络来校准结果，实现了通用外域音频的自然结果创造。

Jan, 2023

形变神经辐射场一次高保真说话头合成

本文提出了 HiDe-NeRF，其采用显式 3D 结构表示和隐式神经渲染来提高脸部表情和姿态的真实性，从而实现高保真和自由视角的说话头合成。

Apr, 2023

RigNeRF: 全控制神经网络 3D 肖像

本研究提出了 RigNeRF 这一系统，不仅能够让用户通过单个肖像视频控制头部姿态和面部表情，还能够实现场景物体的编辑和自由视角合成。

Jun, 2022