Dec, 2023

神经文本转口头表达:深度文本到视听说话合成实现听觉与逼真图像

TL;DR在这篇论文中,我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART,它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失,该模型能够生成人类般发音和音视频同步的逼真说话人脸视频,实验证明其在客观指标和人类评估方面达到了最先进的生成质量。