Sep, 2023

RADIO: 参考无关的配音视频合成

TL;DR通过使用音频和参考特征的潜空间来调制解码器层,并结合 ViT 块强调高保真细节,我们提出了一种名为 RADIO 的框架,能够在参考图像的姿态和表情多变的情况下产生高质量的配音视频,并在与地面真实值明显偏离的情况下展现良好的同步性和鲁棒性。