EMNLPOct, 2022

BERT 遇上 CTC:利用预训练掩码语言模型的端到端语音识别新公式

TL;DR本文提出了 BERT-CTC,一种新的端到端语音识别形式,采用 BERT 来适应连接时间分类(CTC),通过自注意机制,BERT-CTC 关注输入和输出序列的完整上下文,并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉依赖关系,并通过 CTC 解码将 mask-predict 算法与 CTC 解码相结合以迭代地细化输出序列。实验结果表明 BERT-CTC 在说话风格和语言变化的情况下都优于传统方法,并且 BERT-CTC 中的语义表示对下游口语理解任务有益。