ICLROct, 2022
视听模型何时以及为何表现为词袋模型,以及此问题的解决方案是什么?
When and why vision-language models behave like bags-of-words, and what to do about it?
Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou
TL;DR通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力,其中 ARO 包含 Visual Genome Attribution、Visual Genome Relation 和 COCO & Flickr30k-Order 等测试,并表明对比学习中 “hard negative mining” 的简单实现显著提高了理解顺序和组成性所需的任务的性能。