Aug, 2023

提高 CTC-AED 模型的综合 CTC 和辅助损失正则化

TL;DR本文介绍了连接主义时间分类(CTC)和基于注意力的编码器解码器(AED)联合训练在自动语音识别(ASR)中的应用,提出了两种融合方法,即 logits 的直接相加(DAL)和最大概率的保留(PMP),并引入辅助损失正则化以加速模型收敛和提高准确性。实验结果表明,DAL 方法在注意力修正方面效果更好,而 PMP 方法在 CTC 前缀搜索和贪婪搜索方面表现出色。