Feb, 2024

探索多模态大型语言模型的感知限制

TL;DR在多模态大型语言模型中,研究了其对小型视觉对象的感知限制,发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索,为未来模型的感知分析提供了新的评价协议。