VL-LTR: 学习类别感知的视觉语言表示在长尾视觉识别中的应用

ECCVNov, 2021

VL-LTR: 学习类别感知的视觉语言表示在长尾视觉识别中的应用

VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition

Changyao Tian, Wenhai Wang, Xizhou Zhu, Jifeng Dai, Yu Qiao

TL;DR本研究提出一种基于深度学习的视觉 - 语言长尾识别框架 (VL-LTR)，并在图像文本双模态下解决了长尾数据识别问题，实验结果在 ImageNet-LT 数据集上表现优异，取得了 77.2% 的整体准确率，比之前最佳表现高出了 17 个百分点。

Abstract

deep learning-based models encounter challenges when processing long-tailed data in the real world. Existing solutions usually employ some balancing strategies or transfer learning to deal with the class imbalance probl

deep learning long-tailed data visual-linguistic recognition framework class imbalance problem imagenet-lt

发现论文，激发创造

一种基于视觉 - 语言模型的简单长尾识别基准线

BALLAD 利用对比学习方法，结合视觉感知与语言理解，实现对于长尾数据集的视觉识别，并在大量实验中获得比竞争性基线更优异的表现。

Nov, 2021

使用大词汇表探索长尾视觉关系识别

本文是对 Long-Tail Visual Relationship Recognition（LTVRR）任务的第一次大规模研究。通过引入 VG8K-LT 和 GQA-LT 等基于 Visual Genome 和 GQA 数据集的相关基准，研究了几种使用最先进的长尾模型在 LTVRR 设置中的性能。最后，介绍了一种 VilHub 损失和一种 RelMix 增强技术，能够显著提高性能，尤其是尾部类别。

Mar, 2020

深度长尾学习综述

本文系统总结了深度长尾学习的最新进展，围绕着类别再平衡、信息增强和模块改进三个主要类别对相关方法进行详细探讨，并通过提出的相对准确度评估指标对最先进的方法进行了实证分析，为深度长尾学习的应用和未来研究方向提供了重要的参考。

Oct, 2021

长尾识别的表示与分类器解耦

本研究中，我们解耦学习过程，系统地探索不同平衡策略如何影响长尾识别的表示学习和分类器。我们的发现表明，数据不平衡在学习高质量表示方面可能不是问题，在使用最简单的实例平衡抽样进行学习表示的情况下，只需调整分类器就能实现强大的长尾识别能力，甚至可以胜过精心设计的损失、采样策略以及使用记忆组件的复杂模块。

Oct, 2019

使用视觉 Transformer 学习不平衡数据

该论文介绍了一种名为 LiVT 的模型，使用 Long-Tailed 数据进行训练，其中使用了 Masked Generative Pretraining (MGP) 和 Balanced Binary Cross Entropy (Bal-BCE) 来优化模型性能，结果表明该模型在 iNaturalist 2018 上的 Top-1 准确率可达 81.0%。

Dec, 2022

持续学习是否能提高长尾识别？朝向一个统一框架

本文提出了解决长尾识别问题的两个重要方法：理论公式证明将全数据集训练的权重控制在同样训练头部数据的权重上限范围内；将头部和尾部的学习视为分开的顺序步骤，使用 Continual Learning 方法来有效地更新学习者的权重。作者在 CIFAR100-LT，CIFAR10-LT 和 Caltech-256 等数据集上执行的实验结果表明，Continual Learning 方法可以比 LTR 专用解决方案更有效地解决长尾识别问题。

Jun, 2023

视觉语言预训练数据压缩

该论文提出一种名为 TL;DR 的视觉语言学习算法，它利用基于编码器 - 解码器的编码器来选择代表性样本，并生成新的标题，旨在将现有的大规模 VLP 数据压缩为小高质量数据集。实验证明，使用 TL;DR 压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。

May, 2023

视觉 - 语言模型中被忽视的尾部

视觉语言模型（VLM）在零射击识别方面表现出色，但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率，并提出了一种减轻 VLM 在零射击识别中不平衡性能的方法 REtrieval-Augmented Learning REAL。

Jan, 2024

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

在这篇论文中，我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning（PVLR）框架，通过双提示策略和交互融合模块，更好地利用了语言模型的能力，以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。

Jan, 2024