Feb, 2024
GRAFFORD: 一份基准数据集,用于测试语言和视觉模型对物体功能的知识
GRAFFORD: A Benchmark Dataset for Testing the Knowledge of Object
Affordances of Language and Vision Models
TL;DR通过研究预训练语言模型和预训练视觉-语言模型对对象适用性的认知,我们发现预训练语言模型在处理不常见的对象适用性时存在有限的推理能力,并且预训练视觉-语言模型不一定能有效捕捉对象适用性。通过少样本微调,我们展示了在预训练语言模型和预训练视觉-语言模型中改进对象适用性知识的方法。