May, 2023

ZeroPrompt: 流式声学编码器即零射击遮蔽语言模型

TL;DR本文提出了 ZeroPrompt 和 Prompt-and-Refine 策略,这是两种简单而有效的训练免费方法,可在不降低精度的情况下降低流式 ASR 模型的 Token Display Time,并通过在推理期间附加零内容作为提示来促使模型在发音前预测未来标记。实验表明,ZeroPrompt 是成本低廉的,并可以在任何数据集上应用于流式声学编码器,可实现与基线模型相比 350~700ms 的 TDT-F 减少和 100~400ms 的 TDT-L 减少,并且在 Aishell-1 和 Librispeech 数据集上具有理论上和实验上相等的 WER。