ICLROct, 2022

视听模型何时以及为何表现为词袋模型,以及此问题的解决方案是什么?

TL;DR通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力,其中 ARO 包含 Visual Genome Attribution、Visual Genome Relation 和 COCO & Flickr30k-Order 等测试,并表明对比学习中 “hard negative mining” 的简单实现显著提高了理解顺序和组成性所需的任务的性能。