使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别
我们的研究旨在探索能否将已存在的多语种 ASR 模型,如 Whisper,适应于儿童语音以提高儿童 ASR 性能,并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较,结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能,而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。
Jul, 2023
儿童语音识别的表现有待提高,本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换,结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示,对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果,相较于基准线而言,两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外,使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。
Jun, 2024
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
通过模型自适应的迁移学习方法,将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中,实现了在受限 GPU 内存、吞吐量和训练数据的情况下,基于消费级硬件实现更快的训练,同时减少了训练数据量,从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。
Jun, 2017
本文介绍了一种用于解决儿童自动语音识别中数据稀缺问题所采用的基于元学习的模型初始化方法,首先验证了其有效性,然后通过模拟新年龄来提出了任务级别的增强方法,成功改善了学习器过拟合的问题,并达到了相对词错误率 (WER) 的提升率高达 51% 的效果
Feb, 2022
本文提出一种用于领域自适应的方法,不需要转录数据,而是使用源域和目标域的无标记平行数据,利用教师 / 学生学习方法在目标域中训练模型,并在两种场景下进行评估,实现了显著的准确率提升,尤其是当使用模拟训练数据时,增加了模型的鲁棒性。
Aug, 2017
研究数据扩增技术,通过将原始数据例子进行连接来建立新的训练实例,以改善用于原始数据优化的 Transformer 和 Conformer 模型,增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。
Oct, 2022
本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型,分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响,结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%,同时通过仅需要 5 个小时的儿童语音数据,也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。
Nov, 2022