May, 2023

BA-SOT: 面向多说话人语音识别的边界感知序列化输出训练

TL;DR该论文提出了一种基于边界的序列化输出训练(BA-SOT)模型,通过显式地将边界知识纳入解码器,结合语音识别的多个发言者和发言者变化预测,及通过引入二阶段连接时序分类(CTC)策略的令牌级 SOT CTC 来恢复时间上下文信息,并引入了针对发言者变化预测精度的话语依存的字符错误率(UD-CER)。BA-SOT 模型在 CER / UD-CER 方面均优于原始 SOT 模型,并且可以通过预训练的 ASR 模型进行 BA-SOT 模型初始化。