Sep, 2024

EAGLE:迈向高效任意指称视觉提示理解的多模态大型语言模型

TL;DR本研究针对现有多模态大型语言模型(MLLM)在处理任意指称视觉提示时的有效性不足和架构冗余问题,提出了EAGLE方法,显著减少了训练成本。EAGLE通过保持指称视觉提示的原始格式,并引入空间概念嵌入,从而提升了模型对特定空间区域的语义理解,展示了在多样化实际场景中的高效表现。