Jan, 2024

Promptformer: 给予提示的变换解码器用于 ASR

TL;DR通过用于自动语音识别的注意机制中的超级提示灵感引入一种新颖机制,将文本上下文与声音表示融合起来,并通过在包含多轮互动的测试集上实现 5.9% 的相对词错误率减少 (rWERR),显示出我们的方法在以前的基线上有所改进。我们证明了即使没有上下文,我们的方法也不会退化,并且在不使用上下文训练模型的情况下仍然有所改进。此外,我们进一步表明,利用预训练的句子片段模型进行上下文嵌入生成可以优于外部 BERT 模型。