Jan, 2024

音频至照片级虚拟人物:对话中的人物合成

TL;DR我们提出了一个框架,用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频,我们输出一个人的多个姿势动作可能性,包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合,以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作,能够表达姿势中的重要细微之处(如冷笑和假笑)。为了促进这项研究,我们介绍了一种首次出现的多视角对话数据集,可以进行逼真的重建。实验证明,我们的模型生成了适当且多样化的姿势动作,优于仅使用扩散或仅使用向量量化的方法。此外,我们的感知评估突出了逼真(与网格)对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。