Oct, 2024

多模态的诅咒:评估大型多模态模型在语言、视觉和音频中的幻觉

TL;DR本研究系统性探讨了大型多模态模型(LMMs)在语言、视觉和音频模态中幻觉现象的问题,这一现象限制了其在现实场景中的应用。我们提出了“多模态的诅咒”(CMM)基准,深入分析幻觉产生的原因,并强调了需要在跨模态学习中实现平衡与增强幻觉缓解策略的重要性。