Nov, 2023

改进儿童语音识别的 Conformer-Transducer、Whisper 和 wav2vec2 的比较分析

TL;DR该研究旨在探索将最先进的 Conformer-transducer 模型适应儿童语音以提高儿童语音识别性能,并将结果与之前在相同数据上进行微调的自监督 wav2vec2 模型和半监督多领域 Whisper 模型进行比较。通过详细的对比分析,我们证明了在儿童语音上微调 Conformer-transducer 模型相对于非微调模型能够显著提高自动语音识别性能。我们还展示了不同儿童语音数据集上的 Whisper 和 wav2vec2 适应情况,并明确 wav2vec2 在这三种方法中提供了最一致的性能改进。