Jan, 2022

基于人脸属性神经渲染的个性化语音头像生成

TL;DR本文提出了一种基于神经辐射场的框架来生成高保真、个性化的说话人头像,并利用大量数据观察到输入音频与唇部运动高度相关,提出一种条件分解方法,其中唇部运动直接从音频输入中预测来实现同步生成,同时从高斯过程中设计一个变分自编码器来学习可能的、自然的头部姿势和眨眼的个性化属性。多个基准测试表明,该方法实现了远优于现有方法的成果。