探索用于不平衡学习的视觉 - 语言模型

Apr, 2023

探索用于不平衡学习的视觉 - 语言模型

Exploring Vision-Language Models for Imbalanced Learning

Yidong Wang, Zhuohao Yu, Jindong Wang, Qiang Heng, Hao Chen...

TL;DR本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题，提出了加入 lightweight decoder 和 imbalanced 方法的改进方案，并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验，证明改进后的 VLMs 相较于原来的 zero-shot classification 方法，在准确率上有显著提升。

Abstract

vision-language models (VLMs) that use contrastive language-image pre-training have shown promising zero-shot classification performance. However, their performance on imbalanced dataset is relatively poor, where

vision-language models contrastive language-image pre-training imbalanced dataset decoder imbalanced algorithms

发现论文，激发创造

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

为何视觉与语言结合的模型在图像分类上不佳？

基于本文的研究发现，将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能，并将性能提升转移到其一般能力上，对于新收集的 ImageWikiQA 数据集，准确率提高了 11.8%。

May, 2024

语言模型作为视觉 - 语言模型的黑盒优化器

通过自然语言提示，我们提出了一种新颖的视觉语言模型微调方法，利用基于对话的大型语言模型作为黑盒优化器，在少样本图像分类任务中通过对话过程中的文本反馈，自动搜索最佳文本提示，从而避免了对模型参数、特征嵌入或输出标签的访问。

Sep, 2023

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

超越单一强度：通用视觉语言模型的定制集成

通过使用集合策略，本研究初步提出了一种增强视觉 - 语言模型在泛化性能方面的方法，取得了新的最先进性能。

Nov, 2023

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

ViTamin：设计可扩展的视觉模型在视觉语言时代

该论文介绍了一种基于对比性语言 - 图像预训练框架的视觉模型评估协议，其中引入了一种新的视觉模型 ViTamin，该模型在零样本任务和模型规模扩展等方面表现出色。

Apr, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021