使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别

Jun, 2022

使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别

Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping

Jenthe Thienpondt, Kris Demuynck

TL;DR本文提出数据增广技术和转移学习策略，使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音，测试集词错误率为 4.86%。

Abstract

automatic speech recognition (ASR) systems are known to exhibit difficulties when transcribing children's speech. This can mainly be attributed to the absence of large →

automatic speech recognition children's speech data augmentation source-filter model transfer learning

发现论文，激发创造

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

利用数据增强提高低资源语音识别的准确性

研究发现，利用自训练及文本转语音增广训练数据可以有效提高低资源语种的 ASR 性能，为解决数据稀缺问题提供了一种高效解决方案。

May, 2023

低预算下的语音识别迁移学习

通过模型自适应的迁移学习方法，将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中，实现了在受限 GPU 内存、吞吐量和训练数据的情况下，基于消费级硬件实现更快的训练，同时减少了训练数据量，从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。

Jun, 2017

关于幼儿语音识别任务增强的优化元初始化

本文介绍了一种用于解决儿童自动语音识别中数据稀缺问题所采用的基于元学习的模型初始化方法，首先验证了其有效性，然后通过模拟新年龄来提出了任务级别的增强方法，成功改善了学习器过拟合的问题，并达到了相对词错误率 (WER) 的提升率高达 51% 的效果

Feb, 2022

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

最小化工作量数据增广方法用于自动语音识别和翻译

研究数据扩增技术，通过将原始数据例子进行连接来建立新的训练实例，以改善用于原始数据优化的 Transformer 和 Conformer 模型，增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。

Oct, 2022

通过微调自监督成人语音表示提高儿童的语音识别能力

本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%，同时通过仅需要 5 个小时的儿童语音数据，也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Nov, 2022