多阶段多模态预训练自动语音识别

Mar, 2024

Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition

Yash Jain, David Chan, Pranav Dheram, Aparna Khare, Olabanji Shonibare...

TL;DR多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Abstract

Recent advances in machine learning have demonstrated that multi-modal pre-training can improve automatic speech recognition (ASR) perform