Oct, 2022

视听模型何时以及为何表现为词袋模型,以及此问题的解决方案是什么?

TL;DR通过创建Attribution, Relation, and Order (ARO)基准来系统性地 evaluated视觉语言模型(VLMs) encode构成信息的能力,其中ARO包含Visual Genome Attribution、Visual Genome Relation和COCO & Flickr30k-Order等测试,并表明对比学习中“hard negative mining”的简单实现显著提高了理解顺序和组成性所需的任务的性能。