Apr, 2023

探究大型视觉语言模型的概念理解

TL;DR本文介绍了一种新的框架,用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型,并发现它们大多数难以展示出概念理解。然而,我们发现交叉注意力可以帮助学习概念理解,并提出了一种新的微调技术,以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。