儿童在人机交互中的语音识别：问题解决了吗？

Apr, 2024

儿童在人机交互中的语音识别：问题解决了吗？

Child Speech Recognition in Human-Robot Interaction: Problem Solved?

Ruben Janssens, Eva Verhelst, Giulio Antonio Abbo, Qiaoqiao Ren, Maria Jose Pinto Bernal...

TL;DR自动语音识别在成人英语语音方面显示出超人的表现，但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量，可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究，并表明性能确实有所提高，新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美，但最佳模型可以正确识别 60.3% 的句子，除了一些小的语法差异，使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。

Abstract

automated speech recognition shows superhuman performance for adult English speech on a range of benchmarks, but disappoints when fed children's speech. This has long sat in the way of child-robot interaction. Recent evolutions in data-driven speech recognition, including the availabil

automated speech recognition child speech recognition transformer architectures openai whisper child-robot speech interactions

发现论文，激发创造

儿童与成人自动语音识别性能差距之桥梁

近期在自动语音识别系统（ASR）方面的最新进展，如 Whisper，已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而，由于适合儿童的特定数据库的有限性以及儿童语音的独特特征，这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性，同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。

Sep, 2023

面向语言学习应用的非母语儿童语音自动识别

研究评估了两个最先进的自动语音识别系统 Wav2Vec2.0 和 Whisper AI 的性能，以开发一个可以支持儿童学习外语的语音机器人，并探究使用 ASR 技术提供对孩子的发音和流利度的洞察力的效用

Jun, 2023

谁说了什么？幼儿园课堂言语分析的自动化方法

幼儿在嘈杂的幼儿园教室中度过相当一部分清醒时间。本研究提出了一种使用开源软件的自动框架，通过儿童和教师佩戴的录音设备来分类说话者并进行转录，结果显示进行自动化的识别和转录教师和儿童言语的准确性较高，并对课堂言语进行分析可能有助于儿童语言发展。未来计划使用自然语言处理改进说话者分类，并分析应用自动化框架到大型数据集中的结果。

Jan, 2024

自动儿童语音识别的端到端神经系统：一个实证研究

通过对最先进的端到端语音识别系统的实证研究，本研究对自动儿童语音识别进行了关键性的评估，并提供了关于训练数据需求、适应儿童数据、儿童年龄、语音长度、不同架构和损失函数对端到端系统的影响以及语言模型对语音识别性能的作用的见解。

Feb, 2021

通过微调自监督成人语音表示提高儿童的语音识别能力

本文通过利用自监督学习采用三个儿童语音语料库构建儿童语音识别模型，分析 fine-tuning 在本地和非本地儿童语音上的性能表现和跨域儿童语料对模型性能的影响，结果显示利用跨域儿童语料进行 fine-tuning 可以使识别性能相对提高至 46.08% 和 45.53% 并且实现绝对改进 14.70% 和 31.10%，同时通过仅需要 5 个小时的儿童语音数据，也可以超越在 960 个小时成年人语音数据上进行 fine-tuning 的现有成人模型的儿童语音系统。

Nov, 2022

适应童声识别的 Whisper 模型

我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Jul, 2023

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

儿童语音识别的离散标记增强

在这项研究中，我们调查了将离散语音标记整合到儿童语音识别系统中的方法，以解决数据稀缺和隐私问题，并探索了单视图和多视图策略，测试了模型的泛化能力。结果表明，儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能，并且参数减少了约 83%。

Jun, 2024