Jul, 2023

告别RNN-T Loss:一种新颖的基于CIF的自动语音识别Transducer架构

TL;DR该篇论文介绍了一种名为CIF-Transducer (CIF-T)的模型,它将连续积分-放电(CIF)机制与RNN-T模型结合起来,实现了高效的对齐。通过舍弃RNN-T损失函数,该模型减少了计算复杂性,并使预测网络的作用更加显著。同时,引入了Funnel-CIF、Context Blocks、统一门控和双线性池化联合网络以及辅助训练策略来进一步提高性能。在AISHELL-1和WenetSpeech数据集的实验中,CIF-T相对于RNN-T模型,在更小的计算开销下取得了最先进的结果。