一种用于普通话语音识别中快速扩充口音领域的元学习方案

Jul, 2023

一种用于普通话语音识别中快速扩充口音领域的元学习方案

A meta learning scheme for fast accent domain expansion in Mandarin speech recognition

PDF

Ziwei Zhu, Changhao Shan, Bihong Zhang, Jian Yu

TL;DR通过元学习技术，本研究提出了一种快速扩展普通话语音识别中口音领域的方法，有效地改善了普通话语音识别在口音方面的性能，比其他方法相对提高了约 3%。

Abstract

spoken languages show significant variation across mandarin and accent. Despite the high performance of →

spoken languages mandarin accent asr meta-learning

发现论文，激发创造

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

元学习为端到端低资源语音识别

该论文介绍了一种基于元学习的低资源自动语音识别的方法，通过用多语言进行预训练并使用模型无关元学习算法（MAML）来快速适应目标语言，该方法名为 MetaASR，经过初步测试，发现该方法在各个目标语言中均显著优于现有的多任务预训练方法，而且开启了一种将元学习应用于更多语音相关应用的新研究方向。

Oct, 2019

学生 - 教师架构在元学习环境下用于对话领域自适应

提出了一种高效的领域自适应任务导向对话系统模型，通过使用元教师模型量化不同领域中上下文下生成的令牌的重要性来指导对话模型，实现更好的自适应效果并达到最先进的性能水平。

Apr, 2021

语义解析中的领域泛化元学习

本文尝试使用基于元学习的框架，旨在实现语义解析的零 - shot 泛化能力，实验结果表明，这种方法对 Spider 数据集上的解析表现有显著的提升。

Oct, 2020

关于幼儿语音识别任务增强的优化元初始化

本文介绍了一种用于解决儿童自动语音识别中数据稀缺问题所采用的基于元学习的模型初始化方法，首先验证了其有效性，然后通过模拟新年龄来提出了任务级别的增强方法，成功改善了学习器过拟合的问题，并达到了相对词错误率 (WER) 的提升率高达 51% 的效果

Feb, 2022

不同领域专家合作，培养全才

本文提出一种基于多领域音频模型的教师 - 学生训练框架，成功地构建了一个应用于多个领域的音频模型，通过对两种不同域名的语音风格实验验证效果，取得了比基线模型（多条件模型）更好的结果，相对字符错误率提高达到了 10.4%。

Jul, 2019

面向口音语音识别的领域对抗训练

本文提出了一个领域对抗训练算法（DAT）来缓解口音识别问题。我们将领域对抗训练（DAT）目标与 Kaldi TDNN 网络的学习目标相结合，鼓励模型学习不受口音影响的特征，以减少标准口音和带有口音的未标记目标域数据之间的不匹配。通过三种不同的普通话口音的实验，我们发现，与仅训练标准口音数据的基线相比，当我们没有口音转录时，DAT 可以使得字符错误率相对降低达 7.45％。我们还发现，DAT 与口音数据自动转录训练结合使用时具有优势，并且 DAT 比多任务学习在口音识别方面更为优异。

Jun, 2018

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

一个模型，多种语言：元学习应用于多语言文本朗读

本文介绍一种多语言语音合成方法，该方法使用上下文参数生成的元学习概念，使用更少的训练数据和更多的语言产生自然音质的多语言语音；其模型使用 Tacotron 2 和完全卷积输入文本编码器，在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集，同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明，该模型跨语言信息共享效果良好，在 “代码切换” 语音合成中表现更自然、准确。

Aug, 2020