儿童个性化语音识别与测试时适应

Sep, 2024

儿童个性化语音识别与测试时适应

Personalized Speech Recognition for Children with Test-Time Adaptation

Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi, Shrikanth Narayanan, Maja J. Matarić

TL;DR此研究解决了儿童语音识别准确性不足的问题，特别是由于现有语音识别模型主要对成年人数据进行预训练，导致对儿童语音的适应性差。本文提出了一种新的无监督测试时适应方法，使得预训练于成人语音的模型能在测试阶段持续适应每个儿童说话者，结果表明适应后的模型在多个说话者的语音识别表现上显著优于未适应的模型。

Abstract

Accurate automatic Speech Recognition (ASR) for Children is crucial for effective real-time child-AI interaction, especially in educational applications. However, off-the-shelf ASR models primarily pre-trained on

发现论文，激发创造

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经TTS模型进行微调并进行了多方面的评估。结果表明训练后的TTS模型能够从只有5秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

使用Transformers和源-滤波变形的转移学习用于强健的低资源儿童语音自动识别

本文提出数据增广技术和转移学习策略，使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音，测试集词错误率为 4.86%。

Jun, 2022

通过微调自监督成人语音表示提高儿童的语音识别能力

本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至46.08% 和 45.53% 并且实现绝对改进14.70% 和 31.10%，同时通过仅需要5个小时的儿童语音数据，也可以超越在960个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Nov, 2022

适应童声识别的Whisper模型

我们的研究旨在探索能否将已存在的多语种ASR模型，如Whisper，适应于儿童语音以提高儿童ASR性能，并将Whisper适应于儿童语音的结果与基于自监督模型wav2vec2进行微调的结果进行比较，结果显示在儿童语音上对Whisper进行微调显著提高了ASR性能，而利用对儿童语音进行微调的wav2vec2模型甚至超过了Whisper的效果。

Jul, 2023

儿童与成人自动语音识别性能差距之桥梁

近期在自动语音识别系统（ASR）方面的最新进展，如Whisper，已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而，由于适合儿童的特定数据库的有限性以及儿童语音的独特特征，这一进展并不容易延伸到儿童ASR领域。最近的一项研究调查了利用My Science Tutor (MyST) 儿童语音语料库提高Whisper在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了MyST数据集的实用性，同时还强调了改善儿童ASR性能的重要挑战。结果展示了将Whisper有效集成到改善儿童语音识别领域的可行性和高效性。

Sep, 2023

改进儿童语音识别的Conformer-Transducer、Whisper和wav2vec2的比较分析

该研究旨在探索将最先进的Conformer-transducer模型适应儿童语音以提高儿童语音识别性能，并将结果与之前在相同数据上进行微调的自监督wav2vec2模型和半监督多领域Whisper模型进行比较。通过详细的对比分析，我们证明了在儿童语音上微调Conformer-transducer模型相对于非微调模型能够显著提高自动语音识别性能。我们还展示了不同儿童语音数据集上的Whisper和wav2vec2适应情况，并明确wav2vec2在这三种方法中提供了最一致的性能改进。

Nov, 2023

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和Whisper模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率(WER)绝对减少了约3%和提高了3.6%。此外，使用少量“高质量”语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

用受监督和自监督的语音基础模型对儿童ASR进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

儿童-成年人互动中最先进的自动语音识别模型评估

本研究针对临床环境中儿童与成年人对话的可靠转录能力进行评估，填补了现有研究的空白。我们采用最新的语音基础模型对自闭症诊断会话中的儿童-成年人交流数据集进行全面评估，发现相较于成年人语音，儿童语音的转录性能明显下降。通过对表现最佳的模型进行微调，儿童语音的转录错误率改善了约8%。

Sep, 2024