UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法

Jul, 2023

UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding

Rui Sun, Zhecan Wang, Haoxuan You, Noel Codella, Kai-Wei Chang...

TL;DR本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE和VCR，并证实了该方法的有效性和泛化性。

Abstract

vision-language tasks, such as VQA, SNLI-VE, and VCR are challenging because they require the model's reasoning ability to understand the semantics of the visual world and natural language. Supervised methods working for →

发现论文，激发创造

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

CLIP 模型是少样本学习器：基于 VQA 和视觉蕴涵的实证研究

本文实证表明，CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能，并提出了一种参数有效的微调策略，以提高少样本性能，最终取得了有竞争力的零样本/few-shot结果。

Mar, 2022

Z-LaVI: 由视觉想象力驱动的零样本语言求解器

通过利用两种互补的“想象力”（检索已有图像和通过文本到图像生成合成不存在的图像），我们开发了一种新颖的方法Z-LaVI，为语言模型赋予了视觉想象能力，从而解决了大规模预训练语言模型的报告偏差问题，提高了跨多个语言任务的零-shot性能。

Oct, 2022

视觉语言预训练的过滤、蒸馏和难负样本

通过对大规模嘈杂数据进行对比学习训练的视觉-语言模型正在变得越来越受欢迎用于零样本识别问题，本文在数据集噪声、模型初始化和训练目标三个方面对对比预训练管道进行了改进。通过 Complexity、Action、and Text-spotting（CAT）筛选策略、概念蒸馏以及重要性采样方法，我们的 DiHT 方法极大地提高了对零样本和几样本线性探测的效果。

Jan, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉-语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

VQA模型中的注意力模式零-shot翻译为自然语言

ZS-A2T是一个零射击框架，将给定模型的转换器注意力转换为自然语言而无需任何训练，以可理解形式提供关于该模型的见解。它在视觉问答（VQA）的上下文中构建在预训练的大型语言模型上，并通过利用VQA模型的文本-图像匹配能力来确定其相似性，从而实现了无需训练并能够替换不同引导来源（例如属性而非注意力矩阵）或语言模型的框架。在VQA的文本解释数据集上进行了评估，并在GQA-REX和VQA-X的零射击设置中达到了最先进的性能。

Nov, 2023

综合、诊断和优化：朝着细粒度的视觉-语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试SPEC。令人惊讶的是，四个领先的VLM在SPEC上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化VLM在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了SPEC的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

学习纠正：零样本生成视觉-语言推理的高效调节任务

通过Image-Conditioned Caption Correction（ICCC）指导的二次调整，提高图像与语言之间的零-shot推理性能。

Apr, 2024

视觉语言模型的零-shot视觉推理：基准测试与分析

本研究解决了视觉语言模型在视觉推理能力上与世界知识间的混淆，系统地评估了其零-shot视觉推理能力。通过使用合成数据集，该研究发现文本场景描述在视觉推理中优于视觉嵌入，并指出在大型模型中，链式推理提示能提升推理效果，反映了大型语言模型在视觉推理中的潜力与局限。

Aug, 2024

从单模态到多模态：扩展投影器以对齐模态

本文解决了多模态应用中对强大的单模态编码器未充分利用的问题。我们提出了一种新方法，通过投影层将预训练的单模态编码器对齐，实现语言与视觉模态的连接。我们的最佳模型在数据量减少20倍、计算要求降低65倍的情况下，在ImageNet上获得76%的准确率，显示出该方法在多模态模型构建中的效率和灵活性。

Sep, 2024