大规模预训练的极限探索

Oct, 2021

Exploring the Limits of Large Scale Pre-training

Samira Abnar, Mostafa Dehghani, Behnam Neyshabur, Hanie Sedghi

TL;DR通过调整数据规模、模型大小和训练时间，提高预训练的准确性可以有利于大多数下游任务的表现，但是当上游准确度提高时，下游任务的表现会饱和，并且与上游和下游任务的性能呈非线性关系，因此需要对下游性能建立一个模型以反映这种饱和现象。

Abstract

Recent developments in large-scale machine learning suggest that by scaling up data, model size and training time properly, one might observe that improvements in pre-training would transfer favorably to most

large-scale machine learning pre-training downstream tasks image recognition model performance

发现论文，激发创造

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021

巧妙之道：利用下游分析能力导航大型语言模型预训练

通过详细分析不同预训练模型中的不同能力表现，我们确认了特定下游指标在不同大小的模型中展示相似的训练动态，多达 670 亿参数。此外，我们还复现了 Amber 和 OpenLLaMA，并发布了它们的中间检查点，以为研究界提供宝贵的资源，促进对开源研究人员的 LLM 预训练进行验证和探索。此外，我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现，我们提供了一种更用户友好的评估优化状态的策略，为建立稳定的预训练流程提供指导。

Apr, 2024

大型语言模型下游任务性能的缩放规律

大型语言模型（LLMs）的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为，探讨了预训练数据的选择和大小对下游性能的影响，并提供了选择适当的预训练数据的实用见解。

Feb, 2024

为什么使用规模预测前沿的人工智能模型的下游能力如此困难？

通过使用五个模型家族和十二个多项选择基准测试，我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系，同时揭示了导致这种降级的机制：下游度量要求将正确的选择与少量特定的错误选择进行比较，这意味着准确预测下游能力不仅要预测概率质量如何在正确选择上随规模集中，还要预测概率质量如何在特定错误选择上随规模波动。

Jun, 2024

重新思考有监督的预训练，以实现更好的下游转移

该论文提出了一种名为 LOOK 的基于留一法 K 最近邻（Leave-One-Out K-Nearest-Neighbor）的监督预训练方法，它通过让每个图像只与其 k 个最近邻居共享其类标签，从而允许每个类展现出多模式分布，从而更好地转移至下游任务，并在多个下游任务上的实验研究表明，LOOK 优于其他监督和自监督预训练方法。

Oct, 2021

探索弱监督预训练的极限

本文探讨了利用大规模社交媒体图像预测 hashtag 的卷积神经网络进行的迁移学习的行为，并展示了相应的实验结果，证明进行大规模预训练能够显著提高图片分类和物体检测任务的表现。

May, 2018

走向科学机器学习的基础模型：特征缩放与转移行为表征

研究表明，预训练模型可以应用于科学机器学习任务中的迁移学习，可在细调适当的预训练模型下，以比从头开始训练少得多的下游示例实现期望的准确度水平。模型的规模越大，用 fine-tuning 方法会获得更好的性能提升，这为 SciML 问题的建模奠定了基础。

Jun, 2023

基于深度学习的图像重建的比例律

本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能，发现在训练样本数较少时，模型表现随训练样本数增加而迅速提升，但在一定程度上达到饱和，并提出理论解释。

Sep, 2022

面向最坏情况下游适应的任务鲁棒预训练

本文提出了一种新的预训练模型方法，使其在从任务中保持鲁棒性，既在自然语言处理数据集上，又在计算机视觉数据集上都具有较好的表现。

Jun, 2023

Swin Transformer V2：扩大容量和分辨率

本文旨在探索大规模计算机视觉模型，并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题，成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型，在多项计算机视觉任务上取得了最佳性能表现，且训练效率远高于谷歌的类似模型。

Nov, 2021