研究了方言对同一语言单词发音的影响,提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务,通过实验表明该方法显著优于联合训练。
Mar, 2020
提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法,能够实现在没有专门的 TTS 前端系统的情况下,对低资源区域口音进行语音合成。
Jan, 2023
使用门控语言专家和课程训练方案改善多语种 Transformer 转导模型的性能,并在英语和西班牙语的双语任务中比基准双语和单语模型分别获得 12.5% 和 7.3% 的相对字错误率降低,并且扩展到更多语言也具有类似的优势。
Mar, 2023
通过提出一种名为 Qifusion-Net 的层自适应融合模型,我们可以在无需任何关于目标口音的先验知识的情况下,有效地识别多口音语音,并通过动态块策略实现流式解码,提取帧级声学特征,促进了精细的信息融合,实验结果表明,我们的方法在 KeSpeech 和 MagicData-RMAC 的多口音测试数据集上相对于基准模型分别降低了 22.1% 和 17.2% 的字符错误率(CER)
Jul, 2024
提出了一种利用多级变分自编码器与对抗学习的文本转语音模型,用于解决语音合成和转换中的口音问题,以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估,结果表明与基线相比,口音转换能力有所提高。
Jun, 2024
本研究提出一种基于使用原生语言(西班牙语和印度语)预训练的端到端循环神经网络多任务学习模型,成功实现对英语口音的识别,相比于其他训练方法,此方法在减小语音中字符错误率方面表现更加优异。
Apr, 2019
通过元学习技术,本研究提出了一种快速扩展普通话语音识别中口音领域的方法,有效地改善了普通话语音识别在口音方面的性能,比其他方法相对提高了约 3%。
Jul, 2023
在该研究中,作者提出了自适应门控混合专家模型,通过采用可变数量的专家处理令牌,实现了稀疏度的保持和训练效率的提高,通过大量实验验证了这种方法在减少训练时间的同时,保持推理质量。
Oct, 2023
该研究论文介绍了一种权重分离方法,用于最小化设备上的模型权重,并提出了结合单语和多语语音识别模型的混合语言语音识别模型,以解决个性化语音识别中的多语言识别问题,同时,引入了一种名为 GLoRA 的门控低秩适应方法来提高参数高效微调性能。实验证明,针对混合语言的微调语音识别模型优于从头开始训练的传统混合语言识别模型,并且 GLoRA 相对于传统的 LoRA 方法,有效地提升了参数高效微调的性能。
Apr, 2024
我们开发了一种实时语音转换模型,具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力,从而提高语音质量,增强现有 ASR 系统的识别性能,并适用于实时多用户通信场景。
May, 2024