我们开发了一种实时语音转换模型,具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力,从而提高语音质量,增强现有 ASR 系统的识别性能,并适用于实时多用户通信场景。
May, 2024
研究使用对抗学习来实现口音转换,能够将说话者的声音身份保留下来,并可将未知说话者的话语转换为多种口音,主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。
Nov, 2022
本研究旨在改进口音转换模型,通过加入声学知识,提高模型对不同口音发音的准确性,采用生成数据训练 ASR 系统,实验结果表明,合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解,但不能推广到未见口音及纯母语模型上。
Mar, 2023
本研究提出一种基于序列到序列的非并行语音转换方法,该方法能够通过显式建模将源语音中的说话风格转移至转换后的语音,并在客观评估和主观听力测试中证明了其在语音自然度和说话人相似度方面优于其他方法,并进行了实验来展示该方法的源语音风格可转移性。
May, 2020
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
该研究提出了一种新颖的非自回归框架用于口音转换,通过学习口音无关的语言表示并使用它们来转换源语音中的口音,从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性,并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处,显著提高了音频质量和可理解性。
Jan, 2024
研究了方言对同一语言单词发音的影响,提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务,通过实验表明该方法显著优于联合训练。
Mar, 2020
该论文介绍了一种端到端的跨语言文字转语音方法,使用基于非注意力 Tacotron 架构的模型,并通过使用条件为说话人身份的归一化流网络,实现 TTS 和语音转换(VC)的可同时进行,该方法可以在低资源情景下获得良好效果。
Oct, 2022
本研究提出了 FragmentVC 的方法,通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构,通过目标说话者话语的频谱特征获取目标说话者的细节音频片段,并使用 Transformer 关注机制将其融合到所需的话语中,无需考虑内容和说话者信息的区分,仅基于重构损失进行训练,结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。
Oct, 2020
本文探讨了不同语音机器学习模型及分类器在地方口音识别方面的应用,发现传统方法的性能也值得关注,并证实了一种新方法测量社会语音变化。
Jun, 2022