BriefGPT.xyz
Ask
alpha
关键词
text-driven audiovisual speech synthesizer
搜索结果 - 1
神经文本转口头表达:深度文本到视听说话合成实现听觉与逼真图像
在这篇论文中,我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART,它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失,该模型能够生成人类般发音和音视频
→
PDF
7 months ago
Prev
Next