通过微调自监督成人语音表示提高儿童的语音识别能力

MMNov, 2022

通过微调自监督成人语音表示提高儿童的语音识别能力

Improving Children's Speech Recognition by Fine-tuning Self-supervised Adult Speech Representations

Renee Lu, Mostafa Shahin, Beena Ahmed

TL;DR本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%，同时通过仅需要 5 个小时的儿童语音数据，也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Abstract

children's speech recognition is a vital, yet largely overlooked domain when building inclusive speech technologies. The major challenge impeding progress in this domain is the lack of adequate child speech corpora

children's speech recognition self-supervised learning child speech corpora fine-tuning performance

发现论文，激发创造

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

儿童在人机交互中的语音识别：问题解决了吗？

自动语音识别在成人英语语音方面显示出超人的表现，但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量，可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究，并表明性能确实有所提高，新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美，但最佳模型可以正确识别 60.3% 的句子，除了一些小的语法差异，使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。

Apr, 2024

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别

本文提出数据增广技术和转移学习策略，使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音，测试集词错误率为 4.86%。

Jun, 2022

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023

学习稳健且多语言的语音表征

本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现，通过使用多样性和嘈杂的语音数据学习表示，并在多个语言中验证其鲁棒性和可迁移性。结果显示，该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。

Jan, 2020

儿童语音识别的离散标记增强

在这项研究中，我们调查了将离散语音标记整合到儿童语音识别系统中的方法，以解决数据稀缺和隐私问题，并探索了单视图和多视图策略，测试了模型的泛化能力。结果表明，儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能，并且参数减少了约 83%。

Jun, 2024

BabySLM：面向语言习得友好的自监督口语模型基准

本文介绍了一种适用于语言习得的基准测试方法，该方法可以在词汇和句法水平上测试口语识别模型的能力，旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力，同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。

Jun, 2023