Jan, 2025
鹰眼:增强视觉定位最小化教学多模态模型中的幻觉
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in
Instructional Multimodal Models
TL;DR本研究针对当前多模态架构在处理视觉数据时出现的幻觉问题展开,提出了一种新颖的方法EAGLE,专注于增强视觉组件的能力,以改善视觉编码器的基础和语言一致性。实验结果表明,EAGLE显著减少了多个基准测试和任务中的幻觉现象,具有重要的应用潜力。