大规模估计局部学习系数
深度神经网络中的退化度由称为学习系数的数量精确量化,本文通过使用随机梯度 Langevin 动力学近似计算具有局部化版本的学习系数,验证了该方法的准确性,并展示了学习系数能够揭示随机优化器对于更或更少退化临界点的引导偏差。
Aug, 2023
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而增加。本研究在无限维线性回归设置下研究了缩放规律的理论;假设最优参数符合高斯先验,数据协方差矩阵具有幂律谱指数为 a>1,我们证明了测试误差的可还原部分为 Θ(M^{-(a-1)} + N^{-(a-1)/a});方差错误随 M 的增加而增加,但由于随机梯度下降的隐式正则化作用,被其他误差所主导从而在界限中消失。我们的理论与实证神经缩放定律一致,并经过数值模拟验证。
Jun, 2024
基于大型语言模型(LLM)的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而,这些公式,包括流行的 DeepMind Chinchilla 扩展规律,忽略了推理成本。我们修改了 Chinchilla 扩展规律,以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析,发现预计具有相当大的推理需求(约 10 亿个请求)的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。
Dec, 2023
本文主要研究神经网络训练过程中的参数空间和特征映射,提出了一种新的线性连接概念 LLFC 并进行了广泛的经验分析。对 LMC 的深入研究揭示了新的有关生成和置换方法的因素,从已训练的网络的每个层的特征映射的角度推进了对 LMC 的理解。
Jul, 2023
采用热力学和推理之间的形式对应来定义学习容量,该容量是对模型有效维度的度量,与 PAC-Bayesian 框架获得的容量概念具有数值上的一致性,是许多基于典型数据集训练的深度网络的参数数量的一小部分,而且取决于训练时使用的样本数量,可以用于理解有效维度,即使是对于随机森林和 kNN 分类器等非参数模型。
May, 2023
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
Scalable Label Distribution Learning (SLDL) is proposed for multi-label classification, where different labels are described as distributions in a latent space with asymmetric correlation, independent of the number of labels, resulting in little computational consumption.
Nov, 2023
提出一种名为 LCA 的新视窗,通过使用 Runge-Kutta 积分器沿训练轨迹分解近似路径积分的组成部分,将网络损失变化的信用保守地分配给参数,从而显示哪些参数在训练过程中负责减少或增加损失,或者哪些参数在网络学习中 “有益” 或 “有害”。该新的测量设备对训练产生了几个不同见解。
Sep, 2019
本研究提出了一种基于图神经网络的、名称为 $ ext {{Learn Locally, Correct Globally}}$ (LLCG) 的、分布式算法,通过本地训练减少通信和内存开销,并利用全局服务器修正减少性能退化问题。实验结果显示 LLCG 可以显著提高效率且不损害性能。
Nov, 2021
本文研究了在环境改变时如何使模型具有可持续发展能力,在理论层面上证明了增量学习的可行性,并提出了一种新的模型架构 ——Cooperation of Small Continual Learners (CoSCL),该模型使用一组独立的子网络来学习所有的任务,有助于提高模型的泛化能力和记忆稳定性,并取得了新的最优性能。
Jul, 2022