Jan, 2024

AffordanceLLM: 视觉语言模型的作用感基础

TL;DR通过利用经过预训练的大规模视觉语言模型中的丰富世界、抽象和人 - 物体相互作用知识,我们提出的模型在自然环境中的对象可承受性接地任务上展示出明显的性能提升,我们进一步证明它可以对训练过程中未见过的随机互联网图像中的对象进行可承受性接地。