大规模预训练的极限探索
本文提出了来自于预训练和微调 Transformer 的缩放见解,并展示了改进的缩放协议,使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量,同时参数数量减少了 50%,训练速度比广泛采用的 T5-base 模型快了 40%。
Sep, 2021
通过详细分析不同预训练模型中的不同能力表现,我们确认了特定下游指标在不同大小的模型中展示相似的训练动态,多达 670 亿参数。此外,我们还复现了 Amber 和 OpenLLaMA,并发布了它们的中间检查点,以为研究界提供宝贵的资源,促进对开源研究人员的 LLM 预训练进行验证和探索。此外,我们提供了不同模型和能力的性能比较以及不同训练阶段的关键指标指导的实证总结。基于这些发现,我们提供了一种更用户友好的评估优化状态的策略,为建立稳定的预训练流程提供指导。
Apr, 2024
大型语言模型(LLMs)的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为,探讨了预训练数据的选择和大小对下游性能的影响,并提供了选择适当的预训练数据的实用见解。
Feb, 2024
通过使用五个模型家族和十二个多项选择基准测试,我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系,同时揭示了导致这种降级的机制:下游度量要求将正确的选择与少量特定的错误选择进行比较,这意味着准确预测下游能力不仅要预测概率质量如何在正确选择上随规模集中,还要预测概率质量如何在特定错误选择上随规模波动。
Jun, 2024
该论文提出了一种名为 LOOK 的基于留一法 K 最近邻(Leave-One-Out K-Nearest-Neighbor)的监督预训练方法,它通过让每个图像只与其 k 个最近邻居共享其类标签,从而允许每个类展现出多模式分布,从而更好地转移至下游任务,并在多个下游任务上的实验研究表明,LOOK 优于其他监督和自监督预训练方法。
Oct, 2021
本文探讨了利用大规模社交媒体图像预测 hashtag 的卷积神经网络进行的迁移学习的行为,并展示了相应的实验结果,证明进行大规模预训练能够显著提高图片分类和物体检测任务的表现。
May, 2018
研究表明,预训练模型可以应用于科学机器学习任务中的迁移学习,可在细调适当的预训练模型下,以比从头开始训练少得多的下游示例实现期望的准确度水平。模型的规模越大,用 fine-tuning 方法会获得更好的性能提升,这为 SciML 问题的建模奠定了基础。
Jun, 2023
本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能,发现在训练样本数较少时,模型表现随训练样本数增加而迅速提升,但在一定程度上达到饱和,并提出理论解释。
Sep, 2022
本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。
Nov, 2021