Oct, 2022

学习联合转录和字幕生成用于端到端自发语音识别

TL;DR本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型,通过模型共享的编码器,同时预测语音和生成字幕,无需预处理,实现了 ASR 性能的提升。