Apr, 2022

学习聆听:建模非确定性二元面部动作

TL;DR该论文提出了一个交互式对话的建模框架,通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征,还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来,并通过运动编码 VQ-VAE 学习了对真实听众运动的离散潜在表示。