Mar, 2025

用信心观察和推理:通过不确定性感知的自主框架增强多模态大语言模型

TL;DR本研究解决了多模态大语言模型在多模态推理中的挑战,特别是依赖昂贵的数据标注和外部工具的潜在不可靠性。我们提出的SRICE框架,通过集成不确定性感知,允许模型自主选择感兴趣的区域,从而提高了推理过程中的可靠性和效率。实验结果显示,SRICE在多个数据集上的平均性能提高了4.6%,并在部分数据集上表现超越了基于微调的方法。