- 神经网络规模定律的信息论基础
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
- 健壮数据剪枝的几何中位数匹配
提出一种基于几何中位数匹配的全新数据修剪方法,通过选择近似几何中位数的子集来改善神经网络在存在噪声和腐败的情况下的剪枝效果,并在大量实验证明该方法在数据修剪方面表现优于现有方法。
- 通过联合示例选择进一步加速多模态学习
数据策展是大规模预训练的重要组成部分。本文中,我们证明了联合选择数据批次比独立选择示例更有效,并且多模态对比目标揭示了数据之间的依赖关系,从而自然地产生衡量批次联合可学习性的标准。我们推导出一种简单易行的选择这类批次的算法,通过它可以明显提 - 线性回归中的缩放定律:计算、参数和数据
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而 - CVPR数据筛选的缩放定律 —— 数据审查不能忽视计算特性
通过引入神经缩放定律来解决数据筛选中的质量 - 数量权衡问题,该定律考虑了网络数据的异质性,为各种质量子集的效用进行特征化,并在多个数据集合的组合中估计模型性能,为数据筛选在不同计算预算下实现最佳性能提供了可能。
- 强健数据修剪:揭示和克服隐性偏见
在数据密集型模型的时代,精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题,并提出了一个公平感知的修剪方法,其在标准计算机视觉基准上展示了良好的性能,与现有算法形成鲜明对比。
- 人工智能与内存壁
通过分析编码器和解码器 Transformer 模型,我们展示了在解码器模型中内存带宽如何成为主要的瓶颈,并提出了模型架构、训练和部署策略的重新设计来克服这一内存限制。
- 尾巴的故事:模型崩塌作为比例定律的变化
AI 模型规模扩大时,神经缩放定律成为预测大型模型在增加容量和原始(人工或自然)训练数据大小时改进的关键工具。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的 - ICLR神经比例定律的资源模型
神经缩放定律表征了模型性能随模型规模增加的改善情况。我们提出了一个神经缩放的资源模型,通过将任务分解为多个子任务并为其分配神经元资源(以分配给子任务的神经元数量表示),我们在玩具问题上经验证实以下实验发现:(1)子任务的损失与其分配的神经元 - 图上的神经标度法则
通过研究深度图模型的扩展性,本文从模型和数据两个角度揭示了神经扩展定律,并提出了针对图数据的模型和数据扩展定律,为构建大规模图模型提供了重要见解。
- 图基础模型
图基础模型(GFM)是图领域中一个新兴的研究课题,旨在发展一种能够概括不同图和任务的图模型。我们提出了一个新颖的视角 ——“图词汇表”,通过在图中编码基本可转移单元的不变性来建立图词汇表,从而解决在构建 GFM 中遇到的跨结构模式图之间正向 - 通过自适应策略加速 Vision Transformer 的训练:导航扩展法则
最近几年,深度学习领域的最新发展主要由大规模模型主导,这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中,通过引导缩放规律,设计出了计算优化的自适应模型,并证明其胜过静态模型。
- 通过中奖彩票集成的神经缩放定律
神经缩放定律是指模型性能随规模增加而改善的现象。本文通过逼近理论分析了神经缩放定律,并预测 MSE 损失随着参数数量的减小而衰减,其中 N 是模型参数数量,d 是固有输入维度。虽然他们的理论对某些情况(例如 ReLU 网络)有效,但令人惊讶 - 神经网络的语义景观范式
深度神经网络的训练动态可以用语义景观范式来描述,该范式将神经网络的学习表示抽象为图上的轨迹,并解释了与尺度相关的算法的出现以及神经尺度定律的统计物理学现象。
- 超越神经网络规模定律:通过数据修剪击败幂律缩放
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量, - EMNLP显微镜下的比例定律:从小尺度实验预测变形器的性能
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。