BriefGPT.xyz
大模型
Ask
alpha
关键词
transformer-based visual frontend
搜索结果 - 1
MM
FastLTS: 无自回归端到端无约束唇语到语音合成
提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS,可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成,比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升,并获得了更好的音频质量。
PDF
2 years ago
Prev
Next