FlashSpeech:高效零射击语音合成
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023
利用大规模扩散模型做无领域特定建模的语音合成,通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题,在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练,实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程,而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。
Jun, 2024
HierSpeech++ 是一种快速而强大的零样本语音合成器,适用于文本转语音(TTS)和语音转换(VC),通过采用层次化语音合成框架,显著提高了合成语音的健壮性、表达力和自然度,在零样本语音合成场景中实现了人类级质量。
Nov, 2023
SpeechX 是一种通用的语音生成模型,能够实现零 - shot 语音合成和各种语音转换任务,处理干净和嘈杂信号。SpeechX 结合了神经编解码器的语言建模和多任务学习,通过任务相关的提示实现统一和可扩展的建模,并在语音增强和转换任务中提供一致的方法来利用文本输入。实验结果表明,SpeechX 在零 - shot 语音合成、降噪、目标扬声器提取、语音去除和语音编辑等多种任务中表现出效果,与专门模型相比实现了可比或更好的性能。
Aug, 2023
本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech,采用单一扩散采样步骤实现语音合成。实验表明,CoMoSpeech 的推理速度比现实时间快 150 倍以上,并且在文本转语音和歌唱声音合成方面具有最佳音频质量。
May, 2023
本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech,旨在实现对任何说话者情感语音的合成,采用了域对抗学习和扩散模型的引导方法,实验结果表明,ZET-Speech 成功地合成了所需情感的自然和情感语音,适用于已知和未知说话者。
May, 2023
现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距,我们设计了一种创新的语音合成流程,通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本,从而更好地模拟人类语音模式,提供更直观自然的用户交互,产生几乎无法与真实人类交流区分的合成语音,使每次交互更具个人化和真实性。
Mar, 2024
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
对于从噪声音频提示生成的语音合成,我们研究了多种策略来提高其质量,包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等,实验证明相较于应用语音增强到音频提示的方法,我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。
Jun, 2024