BriefGPT.xyz
大模型
Ask
alpha
关键词
zero-shot tts
搜索结果 - 4
基于音频编解码器的零样本文本到语音合成的改进:多模态背景和大型语言模型
通过将 Qformer 应用于多模态上下文信息,结合预训练的大型语言模型和音频编码器,我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型,通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明,我
→
PDF
a month ago
自适应的自监督语音表示模型条件下的抗噪零样本语音合成
基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而,当参考语音包含噪声时,这种方法的语音合成质量会降低。本文中,我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中,并使用带噪
→
PDF
6 months ago
Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音
该研究基于语音属性的分解和对应的感性偏见,提出了一种基于方谱的 TTS 系统 Mega-TTS,训练了 20k 小时的语音数据,实现了零样本文本到语音的高质量生成。
PDF
a year ago
无端到端语音合成中无需超参数搜索的损失折衷自动调整
本文介绍了一种基于 VITS 的模型的无需搜索的优化框架,它可以平衡损失,并将解码器的能力提高到最大,从而实现了无需搜索找到最佳平衡点。通过该框架,在零样本语音合成和语音转换任务中取得了最优表现。
PDF
a year ago
Prev
Next