零 - shot 转移学习的综合缩放 | BriefGPT

Nov, 2021

零 - shot 转移学习的综合缩放

Combined Scaling for Zero-shot Transfer Learning

Hieu Pham, Zihang Dai, Golnaz Ghiasi, Kenji Kawaguchi, Hanxiao Liu...

TL;DR研究使用 BASIC 方法将对比学习框架在三个方面进行扩展：数据规模、模型规模和批次大小，并取得了对比学习模型的极高准确性和健壮性。

Abstract

We present a combined scaling method - named BASIC - that achieves 85.7% top-1 accuracy on the ImageNet ILSVRC-2012 validation set without learning from any labeled ImageNet example. This →

scaling method accuracy robustness benchmarks contrastive learning framework batch size

发现论文，激发创造

可再现的对比语言 - 图像学习的比例定律

本研究探索了对比语言 - 图像预训练（CLIP）的缩放定律，使用了公共数据集和开放源代码来研究缩放规律，并发现训练分布在缩放规律中起关键作用。通过在多个下游任务中评估最大规模的公共 CLIP 模型，我们发现在多个下游任务中，有效训练集大小、模型大小和计算量与性能之间具有幂律缩放关系。

Dec, 2022

CLIPA-v2: 用 1 万美金预算训练，实现 81.1% 的零样本 ImageNet 准确率；再花 4000 美金可获得 81.8% 的准确率

通过研究表明，CLIPA 可以通过反比例尺度律以更低的计算成本实现高性能的训练，可以在 finetuning 阶段进一步减少计算需求，从而实现零样本 Imagenet 准确率的提高。

Jun, 2023

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

缩放 (下降) CLIP: 数据、架构和训练策略的全面分析

研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练（CLIP）的性能，分析数据、架构和训练策略三个维度，证明高质量训练数据的重要性，指出较小的数据集在一定计算限制下优于较大数据集，并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略，并表明在可用计算资源上选择训练策略的不同，最后发现只使用一半的训练数据，CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解，使其在各种应用中更加可行和经济实惠。

Apr, 2024

EVA-CLIP-18B：扩展到 180 亿参数的 CLIP

EVA-CLIP-18B 是目前最大且最强大的开源 CLIP 模型，拥有 180 亿参数；只看到 60 亿个训练样本，EVA-CLIP-18B 在 27 个广泛公认的图像分类基准中，以异乎寻常的 80.7% 零示例一级准确度表现出色，在模型大小扩展方面，观察到 EVA-CLIP 的持续性能改进；希望通过提供我们的模型权重公开，促进未来在视觉和多模态基础模型方面的研究。

Feb, 2024

CLIP 训练的反比例缩放定律

本文发现了 CLIP 训练的反比例缩放定律，即使用更大的图像 / 文本编码器，可以应用更短的图像 / 文本令牌序列进行训练，并通过减少计算障碍成功地训练 CLIP，在 A100 八 GPU 服务器上，我们的 CLIP 模型在～2 天、~3 天和～4 天内实现了零样本 top-1 ImageNet 准确率分别为 63.2％、67.8％和 69.3％，希望能够鼓舞更多学术领域的研究。

May, 2023

语言图像预训练的 Sigmoid Loss

本文提出了针对图像 - 文本预训练的简单对数损失函数，其中使用 sigmoid 函数，从而可以放大批量大小，并实现更好的性能表现。

Mar, 2023

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

数据有效性视觉 - 语言对齐的课程学习

利用 TOnICS 算法对使用少量成对数据的预训练语言和视觉表示模型进行对齐，从而实现了使用更少的数据在 BERT 和 VinVL 预训练模型上进行映射，超越了 CLIP 在零样本图像检索方面的表现。

Jul, 2022

模型训练中的合成图像缩放定律…… 目前而言

通过研究最先进的文本到图像模型生成的合成图像在规模上的表现，本文发现合成图像在训练监督图像分类器时性能较差原因是某些概念无法被现成的文本到图像模型生成，但对于与真实图像结合训练 CLIP 模型或存在真实图像供给不足或评估数据集与训练数据差异较大的情况下，扩大合成数据规模可能特别有效。

Dec, 2023