用于高效物种检测的 LiT 调整模型

AAAIFeb, 2023

用于高效物种检测的 LiT 调整模型

LiT Tuned Models for Efficient Species Detection

Andre Nakkab, Benjamin Feuer, Chinmay Hegde

TL;DR该论文提出了一种适用于分布式视觉语言预训练的简单方法，并在具有挑战性的 iNaturalist-2021 数据集上实现了零样本分类精度，从而打开了在涉及物种检测的农业相关应用中利用高质量视觉 - 语言预训练模型的新途径。

Abstract

Recent advances in training vision-language models have demonstrated unprecedented robustness and transfer learning effectiveness; however, standard computer vision datasets are image-only, and therefore not well adapted to such training methods. Our paper introduces a simple methodolo

vision-language models image classification pretraining zero-shot classification species detection

发现论文，激发创造

LiT: 基于锁定图像文本调整的零次迁移

该研究提出了对比度调整（contrastive-tuning）方法，通过对比训练使图像和文本模型对齐，该方法能够在使用预训练的同时仍然发挥其优势，其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot 迁移能力，能够迁移新的视觉任务，本研究在多个预训练方法（有监督和无监督）以及不同架构 (ResNet, Vision Transformers 和 MLP-Mixer) 的三个不同的图像－文本数据集上得到了可靠的效果。

Nov, 2021

从自然语言监督中学习可转移的视觉模型

通过预测图像与文本配对来预训练计算机视觉系统，使其可以从自然语言描述中直接学习视觉概念，从而实现零样本迁移，并在多个计算机视觉任务上展现出竞争力。

Feb, 2021

LaFTer：使用语言和未标记图像集合进行零样本分类器的无标签调整

本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签，并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比，在多个数据集上的绝对提升高达 11.7％（平均 3.8％），而与一些少样本提示基线相比的平均增益为 1.3％。

May, 2023

使用视觉 Transformer 进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022

I-Tuning: 利用图像微调冻结语言模型轻量级图像字幕

本文介绍了一种轻量级图像字幕生成框架（I-Tuning），该框架包含较少的可训练参数，并设计了一种新颖的 I-Tuning 交叉注意力模块，用于连接预先训练的语言解码器 GPT2 和视觉编码器 CLIP-ViT。实验结果表明，该框架与大规模基线系统具有可比或更好的性能，但我们的模型可训练参数少至 10 倍并且需要更少的训练数据。

Feb, 2022

一种基于视觉 - 语言模型的简单长尾识别基准线

BALLAD 利用对比学习方法，结合视觉感知与语言理解，实现对于长尾数据集的视觉识别，并在大量实验中获得比竞争性基线更优异的表现。

Nov, 2021

视觉与语言预训练

本篇研究综述了当下 Vision-and-Language 领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

摄像陷阱图像中零样本动物物种识别的多模态基础模型

通过减少对昂贵的标记数据的依赖，我们提出了一种新的零样本物种分类方法 WildMatch，该方法使用多模态基础模型，利用人们熟悉的术语生成摄像机陷阱图像的详细视觉描述，并将生成的描述与外部知识库中的描述进行匹配，以零样本的方式确定物种。我们还研究了构建详细动物描述生成的指导调优数据集的技术，并提出了一种新的知识增强技术来提高描述质量。我们在哥伦比亚 Magdalena Medio 地区的一个新的摄像机陷阱数据集上展示了 WildMatch 的性能。

Nov, 2023

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023