一种用于普通话语音识别中快速扩充口音领域的元学习方案
该论文介绍了一种基于元学习的低资源自动语音识别的方法,通过用多语言进行预训练并使用模型无关元学习算法(MAML)来快速适应目标语言,该方法名为 MetaASR,经过初步测试,发现该方法在各个目标语言中均显著优于现有的多任务预训练方法,而且开启了一种将元学习应用于更多语音相关应用的新研究方向。
Oct, 2019
提出了一种高效的领域自适应任务导向对话系统模型,通过使用元教师模型量化不同领域中上下文下生成的令牌的重要性来指导对话模型,实现更好的自适应效果并达到最先进的性能水平。
Apr, 2021
本文介绍了一种用于解决儿童自动语音识别中数据稀缺问题所采用的基于元学习的模型初始化方法,首先验证了其有效性,然后通过模拟新年龄来提出了任务级别的增强方法,成功改善了学习器过拟合的问题,并达到了相对词错误率 (WER) 的提升率高达 51% 的效果
Feb, 2022
本文提出一种基于多领域音频模型的教师 - 学生训练框架,成功地构建了一个应用于多个领域的音频模型,通过对两种不同域名的语音风格实验验证效果,取得了比基线模型(多条件模型)更好的结果,相对字符错误率提高达到了 10.4%。
Jul, 2019
本文提出了一个领域对抗训练算法(DAT)来缓解口音识别问题。我们将领域对抗训练(DAT)目标与 Kaldi TDNN 网络的学习目标相结合,鼓励模型学习不受口音影响的特征,以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验,我们发现,与仅训练标准口音数据的基线相比,当我们没有口音转录时,DAT 可以使得字符错误率相对降低达 7.45%。我们还发现,DAT 与口音数据自动转录训练结合使用时具有优势,并且 DAT 比多任务学习在口音识别方面更为优异。
Jun, 2018
本文提出了一种基于元学习算法采用模态不可知的多任务模型,将源任务 ASR + MT 的知识转移到目标任务 ST 中,以应对 ST 任务短缺数据的问题,该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。
Nov, 2019
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集,同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明,该模型跨语言信息共享效果良好,在 “代码切换” 语音合成中表现更自然、准确。
Aug, 2020