本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益,提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。
Sep, 2022
研究了混合式语言生成模型的规模特性及其相互作用,提出了新的混合式扩展定律,并发现了四种训练现象和各种相互作用连接。
Jan, 2023
本文发现了CLIP训练的反比例缩放定律,即使用更大的图像/文本编码器,可以应用更短的图像/文本令牌序列进行训练,并通过减少计算障碍成功地训练CLIP,在 A100 八 GPU 服务器上,我们的 CLIP 模型在 ~2 天、~3 天和~4 天内实现了零样本 top-1 ImageNet 准确率分别为 63.2%、67.8% 和 69.3%,希望能够鼓舞更多学术领域的研究。
May, 2023
研究通过受限的计算预算缩小规模的对比性语言-图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
本文研究了大型语言模型在规模扩展下的鲁棒性,填补了现有对于鲁棒性与模型规模之间关系的研究空白。文章提出了通过对抗性训练来提升模型的鲁棒性这一新方法,并发现更大的模型在这种训练下能显著提升其反应能力,而在缺乏明确防御机制的情况下,则几乎没有规模的益处。这一发现对理解和改进语言模型的安全性具有重要意义。
Jul, 2024
本研究旨在解决神经网络规模与数据量对性能提升影响的缺口。提出了一种新颖的理论框架,展示模型规模、训练时间和数据量三者如何相互影响,形成规模时间等价性。这一发现不仅挑战了目前的小模型短训练时间的实践,还为评估和优化大型网络性能提供了预测方法,具有重要的实际应用价值。
Sep, 2024
本研究解决了对机器学习模型缩放规律的估计和解释不足的问题。通过收集和分析485个预训练模型的大规模数据集,提出了一套最佳实践,发现利用训练过程中的中间检查点进行拟合可以显著提高预测准确性,且相似规模的模型提供了更可靠的性能估计。这一发现为模型选择和预训练决策提供了重要参考。
Oct, 2024