Jul, 2024

文化和包容性考虑下的视觉-语言模型

TL;DR通过创建一个调查问卷,我们确定图说偏好,并通过过滤由盲人拍摄的图像构建一个以文化为中心的评估基准,评估了几种大型视觉语言模型在文化多样化环境中作为视觉助理的可靠性,结果表明最先进的模型仍面临幻觉和与人类判断不一致的自动评估指标的挑战,我们公开共享了调查问卷、数据、代码和模型输出。