SugarCrepe：修复视觉语言组合基准的可黑客化问题

Jun, 2023

SugarCrepe：修复视觉语言组合基准的可黑客化问题

SugarCrepe: Fixing Hackable Benchmarks for Vision-Language Compositionality

Cheng-Yu Hsieh, Jieyu Zhang, Zixian Ma, Aniruddha Kembhavi, Ranjay Krishna

TL;DR本文提出了一种新的视觉 - 语言组合性评估基准 SugarCrepe，采用大型语言模型和对抗性优化机制，有效地降低了现有评估基准的偏差，并重新评估了最先进的模型和近期提出的组合性诱导策略，发现它们的改进被高估了，需要在这一重要方向上进行更多的创新。

Abstract

In the last year alone, a surge of new benchmarks to measure compositional understanding of vision-language models have permeated the machine learning ecosystem. Given an image, these benchmarks probe a model's ability to identify its associated caption amongst a set of compositional d

vision-language models compositional understanding benchmark sugarcrepe adversarial refinement mechanism

发现论文，激发创造

SUGARCREPE++ 数据集：视觉语言模型对语义和词汇变化的敏感性

该论文介绍了 SUGARCREPE++ 数据集，用于分析大型语言模型和视觉语言模型对词汇和语义变化的敏感性，并评估了它们在区分词汇和语义变化方面的困难，特别是在对象属性和空间关系方面。虽然使用更大的预训练数据集、模型规模和多个预训练目标的模型在 SUGARCREPE++ 上表现更好，但仍有很大的改进空间。

Jun, 2024

BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估

双向视觉语言组合性 (BiVLC) 数据集用于添加由合成文本生成的合成负向图像，从而产生两个图像到文本检索示例和两个文本到图像检索示例，发现当前多模态模型在文本到图像方向上表现不佳。

Jun, 2024

视觉语言模型的可扩展性能分析

本文介绍了一种更具可伸缩性的方法，其根据从视觉 - 语言基准中提取的大量多样化特征，并测量它们与目标模型输出的相关性。通过该方法，作者确认了之前发现的 CLIP 表现类似于词袋模型，并且在名词和动词上表现更好；作者还发现 CLIP 在处理具体词语时会出现混淆。该框架可用于其他多模态模型和基准测试。

May, 2023

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。

Apr, 2024

大型生成视觉语言模型的构成性研究

使用多模态指导调整的大型语言模型和生成型视觉语言模型，通过评估指标和基准测试提供了第一个无偏向性的复合性测评基准，从而开创了未来研究的方向。

Aug, 2023

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

测量组合泛化能力：一种基于真实数据的综合方法

本研究提出了一种基于分子分散度最大化和原子分散度最小化的方法去构建实际应用的语言理解数据集，并通过分析三个多层次深度学习架构的表现来量化比较这种方法与其他构建复合语言理解测评基准的方法，研究表明现有的机器学习方法在复合语言理解上处于局限性表现，且都表现出惊人强的负相关性，研究结果可应用于构建和优化大规模自然语言处理应用系统。

Dec, 2019

组合视觉推理基准测试

该论文介绍了一个新的视觉推理基准测试，Compositional Visual Relations (CVR)，以推动更加数据高效的学习算法的开发，并发现卷积神经网络比变压器架构在大多数数据方案上表现更好，但所有计算模型都比人类更不数据高效。

Jun, 2022

从博弈论视角诊断视觉语言模型的组合知识

通过评估不同方面的结构性理解，例如关系和属性，系统地揭示了视觉语言模型在结构性推理方面的弱点，并提供了有用且可靠的指导，以便未来的研究。

May, 2024