Jun, 2023

情感谈话头像生成基于记忆共享和注意力增强网络

TL;DR该研究提出了一个能够通过音频和静态人脸图像生成高保真动态 “说话人头像” 的神经网络模型。该模型包括一个从音频中提取情感特征的神经网络和一个基于 U-net 的注意力增强翻译器,可以更精准地估计面部关键点,并将其与照片般逼真的视频帧相结合,达到了比其他先前研究更好的实验效果。