MMJul, 2022

FastLTS: 无自回归端到端无约束唇语到语音合成

TL;DR提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS,可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成,比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升,并获得了更好的音频质量。