Apr, 2024

通过标签先验使 CTC 强制对齐更加平滑和准确

TL;DR为了改善 Connectionist temporal classification (CTC) 模型的尖峰行为并提高其在强制对齐生成中的适用性,本文通过利用标签先验知识来增加路径中空白部分较少的对齐得分并在训练中将其最大化,从而使得我们的 CTC 模型产生更少尖峰的后验概率并能够更准确地预测令牌的偏移,相较于标准的 CTC 模型和基于启发式的方法,我们的方法在 Buckeye 和 TIMIT 数据上在音素和词边界错误 (PBE 和 WBE) 上的表现提高了 12-40%;与广泛使用的强制对齐工具 Montreal Forced Aligner(MFA)相比,我们的方法在 Buckeye 的 PBE/WBE 上表现类似,但在 TIMIT 上稍逊。然而,我们的方法具有更简单的训练流程和更高的运行效率。我们的训练步骤和预训练模型已在 TorchAudio 中发布。