ACLMay, 2024

再次聆听并选择正确答案:大语言模型下自动语音识别的新范式

TL;DR该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER,通过引入一种多模态 LLM(即 SpeechGPT)来改善纠正输出的忠实度,然后将 GER 重新设计为带有 logits 校准的 cloze 测试,以消除输入信息冗余并简化 GER 过程。实验证明,ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。