ICLRFeb, 2024

永不为晚:将声学信息融入大型语言模型的自动语音识别

TL;DR使用大型语言模型进行生成性错误纠正时,通过融合声学信息,提出了一种名为 Uncertainty-Aware Dynamic Fusion (UADF) 的新型晚期融合解决方案,该方法在自回归解码过程中实施多模态融合,并在处理 LLM 中的数据不确定性问题、缓解融合过程中单一模态的泛化能力差以及改善字词错误率方面取得了显著的改进。