参数高效的长尾识别

Sep, 2023

Parameter-Efficient Long-Tailed Recognition

Jiang-Xin Shi, Tong Wei, Zhi Zhou, Xin-Yan Han, Jie-Jing Shao...

TL;DR通过引入 PEL 方法，该研究通过少于 20 个时期的微调，无需额外数据即可适应长尾识别任务，并通过在分类器初始化中采用 CLIP 文本编码器的新颖技术解决了过度拟合问题，从而持续优于之前的最佳方法。

Abstract

The "pre-training and fine-tuning" paradigm in addressing long-tailed recognition tasks has sparked significant interest since the emergence of large vision-language models like the contrastive language-image pre-training (CLIP). While previous studies have shown promise in adapting pr

pre-training and fine-tuning long-tailed recognition tasks pel overfitting semantic-aware classifier initialization

发现论文，激发创造

预训练视觉 - 语言模型的高效和长尾泛化

针对使 CLIP 适应现实世界的挑战，我们提出了一种名为 Candle 的新框架，通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化，该方法在 11 个不同数据集上展示出了卓越的性能，并大大减少了训练时间。

Jun, 2024

遥感图像文本检索的参数高效迁移学习

通过参数高效的迁移学习方法，将自然领域的视觉 - 语言知识有效且高效地转移到遥感领域的图像 - 文本检索任务上，提出了一个新颖而复杂的参数高效转移学习框架，通过预训练的 CLIP 模型、多模态遥感适配器和混合多模态对比学习目标来解决遥感数据中高内部相似性的问题，并在 RSITR 任务上进行了全面的实证研究，结果表明该方法具有很大的应用潜力，可以在实际应用中实现大幅度的训练成本节省，超过传统方法 7-13% 的检索性能并达到与全面微调相媲美甚至更好的性能，为 RS 视觉 - 语言任务提供了新的思路和有用的见解。

Aug, 2023

少样本参数高效微调优于上下文学习且更为经济

通过比较 Few-shot in-context learning 和 Parameter-efficient fine-tuning 的方法，我们证明 PEFT 具有更好的精度和极低的计算成本。我们提出了一种名为 (IA)$^3$ 的新的 PEFT 方法，并提出了一个基于 T0 模型的简单配方，称为 T-Few，在没有任务特定调整或修改的情况下可以应用于新任务。我们在 RAF 基准测试中验证了 T-Few 的有效性，首次达到了超人类表现，并超越了现有技术的 6％。

May, 2022

LPT: 长尾蛇形提示调整技术用于图像分类

提出了一种有效的长尾 Prompt 调整方法用于长尾分类。该方法使用两个阶段的培训范例来学习训练可调节的提示符。实验证明，与之前的整个模型微调方法相比，此方法具有可比较的性能，并且更加强大。

Oct, 2022

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

HyperPELT：统一参数高效的语言模型调整，适用于语言和视觉语言任务

本文提出一种基于预训练的参数高效迁移学习框架，使用共享的超网络对预训练语言模型进行微调，支持语言和视觉任务，并在多任务学习中具有较好的性能和转移能力。

Mar, 2022

一种基于视觉 - 语言模型的简单长尾识别基准线

BALLAD 利用对比学习方法，结合视觉感知与语言理解，实现对于长尾数据集的视觉识别，并在大量实验中获得比竞争性基线更优异的表现。

Nov, 2021

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022

大型视觉语言模型的少样本自适应研究

通过引入适应真实场景需求的新方法，我们综合评估了一个广泛的数据集和场景，发现其在实践中始终优于现有技术，同时作为更高效的替代方案。

Dec, 2023

eP-ALM: 语言模型的高效感知增强

本文提出了一种高效适应单模预训练模型解决多模任务的方法 eP-ALM，在冻结大多数参数、仅训练一个线性投影层，前置仅一个可训练标记的情况下，显著优于基线，并在图像、视频和音频模态下跨越 VQA 和字幕的多个基准测试中取得了最佳性能。

Mar, 2023