Apr, 2025

视觉-语言模型在指称表达生成中的实用能力不足

TL;DR本研究聚焦于当前视觉-语言模型(VLMs)在指称表达生成(REG)任务中的不足,特别是忽视了实用沟通的原理。我们提出了一个新的数据集(RefOI),并通过对先进VLMs的系统评估,揭示了这些模型在唯一识别参照物、包含多余信息以及与人类实用偏好不匹配等方面的三大关键缺陷。研究结果强调了需要关注实用性模型及评估框架,以更好地契合实际人际沟通。