Jul, 2022

从视频中感知语音的视觉三维面部表情重建

TL;DR本文介绍了一种基于视觉的、口型感知的三维口部表情重建方法,该方法不需要任何文本转录或对应音频,并使用 “lipread” 损失来指导拟合过程,以使三维重建的头部运动与原始视频片段的感知相似。此外,通过三个大规模数据集的详尽客观评估和两个基于网络的用户研究的主观评估,我们证明了该方法的有效性。