适应童声识别的 Whisper 模型

Jul, 2023

Adaptation of Whisper models to child speech recognition

Rishabh Jain, Andrei Barcovschi, Mariam Yiwere, Peter Corcoran, Horia Cucu

TL;DR我们的研究旨在探索能否将已存在的多语种 ASR 模型，如 Whisper，适应于儿童语音以提高儿童 ASR 性能，并将 Whisper 适应于儿童语音的结果与基于自监督模型 wav2vec2 进行微调的结果进行比较，结果显示在儿童语音上对 Whisper 进行微调显著提高了 ASR 性能，而利用对儿童语音进行微调的 wav2vec2 模型甚至超过了 Whisper 的效果。

Abstract

automatic speech recognition (asr) systems often struggle with transcribing child speech due to the lack of large →

automatic speech recognition asr child speech whisper wav2vec2

发现论文，激发创造

改进儿童语音识别的 Conformer-Transducer、Whisper 和 wav2vec2 的比较分析

该研究旨在探索将最先进的 Conformer-transducer 模型适应儿童语音以提高儿童语音识别性能，并将结果与之前在相同数据上进行微调的自监督 wav2vec2 模型和半监督多领域 Whisper 模型进行比较。通过详细的对比分析，我们证明了在儿童语音上微调 Conformer-transducer 模型相对于非微调模型能够显著提高自动语音识别性能。我们还展示了不同儿童语音数据集上的 Whisper 和 wav2vec2 适应情况，并明确 wav2vec2 在这三种方法中提供了最一致的性能改进。

Nov, 2023

儿童与成人自动语音识别性能差距之桥梁

近期在自动语音识别系统（ASR）方面的最新进展，如 Whisper，已经显示出这些系统在充足的数据支持下能够接近人类水平的性能。然而，由于适合儿童的特定数据库的有限性以及儿童语音的独特特征，这一进展并不容易延伸到儿童 ASR 领域。最近的一项研究调查了利用 My Science Tutor (MyST) 儿童语音语料库提高 Whisper 在儿童语音识别方面的性能。本文在此基础上通过更高效的数据预处理提升了 MyST 数据集的实用性，同时还强调了改善儿童 ASR 性能的重要挑战。结果展示了将 Whisper 有效集成到改善儿童语音识别领域的可行性和高效性。

Sep, 2023

面向语言学习应用的非母语儿童语音自动识别

研究评估了两个最先进的自动语音识别系统 Wav2Vec2.0 和 Whisper AI 的性能，以开发一个可以支持儿童学习外语的语音机器人，并探究使用 ASR 技术提供对孩子的发音和流利度的洞察力的效用

Jun, 2023

将 ASR 基础模型用于口语评估的适应

本文详细分析了 Whisper 输出，并提出了精细调整和软提示调整两种解决方案，实验证明我们可以有效地改变 Whisper 的解码行为，生成与口语回答中准确的单词。

Jul, 2023

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

改进不可适应的 ASR 系统

本文介绍一种基于 OpenAI Whisper ASR 的大规模 ASR 系统来评估适应方案的方法，该方法采用基于错误校正的方法并且可应用于不同结构的语音识别模型以提高模型的适应性。

Jun, 2023

使用 Transformers 和源 - 滤波变形的转移学习用于强健的低资源儿童语音自动识别

本文提出数据增广技术和转移学习策略，使得基于 XLS-R 架构的 Transformer 模型能更好地识别儿童英语语音，测试集词错误率为 4.86%。

Jun, 2022

传递性探究：Whisper 语音表示在 “野外” 跨任务下游应用中的适用性

本文通过探究 Whisper 模型在 ASR 和其他四个语音任务中的泛化性以及在嘈杂环境下的鲁棒性，证明了其表现出色并具有实际应用价值。

May, 2023

增强式儿童语音识别技术的改进

儿童语音识别的表现有待提高，本研究通过对现有数据集中的儿童语音和额外的儿童说话人进行单语和跨语言转换来研究儿童间的语音转换，结果表明跨语言儿童间语音转换能显著提高儿童语音识别性能。对儿童间跨语言语音转换产生的数据量对微调自注意力模型和 Whisper 模型的影响实验结果显示，对微调自注意力模型使用两倍数据和对从头训练的模型使用六倍数据取得了最佳效果，相较于基准线而言，两者分别使词错误率 (WER) 绝对减少了约 3% 和提高了 3.6%。此外，使用少量 “高质量” 语音转换生成的数据也能取得类似最佳微调模型的效果。

Jun, 2024

Whisper-MCE：用于混合语言更佳性能的 Whisper 模型微调

本文介绍了 Whisper-MCE 模型在 minor language 和 mixed language 语音识别方面的卓越表现，同时提出一种新的评估机制以解决在这些语境下对其有效性进行评估时的挑战。通过将我们的模型与基线模型 whisper-large-v2 进行比较，我们展示了其准确捕捉原始音频内容、实现更高的识别准确率和更快的识别速度的卓越能力。值得注意的是，在识别 mixed language 的特定任务中，我们的模型超越了其他现有模型。

Oct, 2023