BriefGPT.xyz
大模型
Ask
alpha
关键词
lip-to-speech synthesis
搜索结果 - 3
RobustL2S: 利用自监督表示技术进行说话人特异性的唇语到语音合成
RobustL2S 是一种模块化的 Lip-to-Speech 合成框架,通过自监督学习对 Lip 形象进行映射,获得一种解耦的语音内容特征,再利用 vocoder 将语音特征转化为原始的声波信号,实现了在多个数据集上的最佳表现。
PDF
a year ago
使用语音单元的可懂嘴唇合成
本文提出了一种新型 Lip-to-Speech 合成(L2S)框架,采用量化的自监督语音表示作为 L2S 模型的另一个预测目标,从而实现了强内容监督的多目标 L2S 模型训练,并介绍了一种多输入声码器用于准确地将合成的梅尔频谱转换为波形,并
→
PDF
a year ago
MM
FastLTS: 无自回归端到端无约束唇语到语音合成
提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS,可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成,比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升,并获得了更好的音频质量。
PDF
2 years ago
Prev
Next