视觉语言预训练的过滤、蒸馏和难负样本

Jan, 2023

视觉语言预训练的过滤、蒸馏和难负样本

Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training

Filip Radenovic, Abhimanyu Dubey, Abhishek Kadian, Todor Mihaylov, Simon Vandenhende...

TL;DR通过对大规模嘈杂数据进行对比学习训练的视觉-语言模型正在变得越来越受欢迎用于零样本识别问题，本文在数据集噪声、模型初始化和训练目标三个方面对对比预训练管道进行了改进。通过 Complexity、Action、and Text-spotting（CAT）筛选策略、概念蒸馏以及重要性采样方法，我们的 DiHT 方法极大地提高了对零样本和几样本线性探测的效果。

Abstract

vision-language models trained with contrastive learning on large-scale noisy data are becoming increasingly popular for zero-shot recognition

发现论文，激发创造

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在LVIS和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021

VL-Taboo：面向属性的零样本视觉-语言模型能力分析

本研究分析了基于大规模数据的视觉-语言模型的真正零样本能力及其属性基零样本学习能力，评估了现有模型对不同基准测试的性能表现及影响因素。结果表明该模型主要通过识别语言中的类标签实现零样本学习，属性数的变化会显著影响其表现。

Sep, 2022

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉-语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

UniFine: 一种用于零样本视觉-语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE和VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

SILC：用自我蒸馏提升视觉语言预训练

基于对 CLIP 模型的改进，本研究提出了 SILC 方法，通过引入本地到全局对应学习来预训练模型，有效提升了计算机视觉领域中的分类、检索和分割等任务的性能，取得了零样本分类、少样本分类、图像与文本检索、无样本分割以及开放词汇分割等方面的最新技术成果。

Oct, 2023

视觉语言模型的领域泛化鲁棒微调

在具有有限训练数据并在分布转变下无法有效推广的情况下，传统的迁移学习方法效果有限。然而，最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题，在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法，并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明，在训练数据供应的各个级别上，与只有视觉的模型相比，少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好，这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。

Nov, 2023

LLM 见视觉语言模型用于零样本单类别分类

我们提出了一个两步解决方案，首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体，然后依靠视觉-语言预训练模型（例如CLIP）进行分类。通过适应大规模视觉基准测试，我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力，包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的iNaturalist。我们的研究表明，仅通过标签，可以区分单个类别与其他语义相关的类别。

Mar, 2024

使用合成数据进行零样本蒸馏的图像编码器：如何有效利用

利用图像特征为基础的L2蒸馏损失，我们训练出的学生模型在四个特定领域数据集上实现了与在DataCompXL上训练的ViT-B/32教师模型相当的零样本性能，同时参数减少了高达92%。

Apr, 2024

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉-语言模型

本文研究视觉语言对比预训练中的问题，提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法，并通过使用sigmoid loss进行训练，在图像识别和图像检索方面取得了非常大的增益。

May, 2024

NEVLP：高效视觉语言预训练的抗噪框架

本研究解决了在使用网络数据进行视觉语言模型预训练时的噪声和不完整性问题，提出了一种名为NEVLP的抗噪框架，使得所需的预训练数据量减少。通过创新的噪声自适应学习和概念增强学习策略，该框架在充分利用噪声数据的同时，实现了在多种视觉语言任务上达到最先进的性能。

Sep, 2024