预测技术进步的统计基础
研究发现,破解世界纪录的时间随着时间的推移呈现出幂律分布,利用这一规律建立的随机效应模型可以有效预测该领域的未来发展趋势,并能超越当前的预测模型在机器学习领域的表现,进一步揭示了该领域的发展潜力和不确定性。
Apr, 2023
本研究通过对技术预测文献的系统综述,发现基于增长曲线和时间序列方法的定量趋势外推技术在过去十年十分流行,而近年来出现了基于机器学习的混合模型等新方法。然而,需要更多的努力和证据来确定混合模型是否优于传统方法,预计未来技术预测中混合模型的发展和应用将呈增长趋势。
Jan, 2024
时间序列预测的缩放定律理论解释了深度学习方法在时间序列预测中的表现不尽相同,必须考虑数据集大小、模型复杂度以及时间序列粒度,特别注重未被研究的回顾时间范围的影响,实证评估了多个模型,验证了在时间序列预测领域数据集大小和模型复杂度的缩放定律有效性,还验证了我们关于回顾时间范围影响的理论框架,为未来有限数据集的时间序列预测模型和大型基础数据集与模型的研究提供了启示。
May, 2024
自 2012 年至 2023 年,使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集,我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半,置信区间为 5 到 14 个月,远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律,可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构(如变压器)的发展,我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制,我们的分析量化了语言建模的快速进展,并阐明了计算量与算法的相对贡献。
Mar, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
本研究旨在更加专业地评估 AI 进展的假设和定量推断 AI 的发展,通过硬件速度和算法改进的关系、人类输入对 AI 能力的影响以及不同子领域之间的关系等方面,为 AI 进步模型提供方法,为技术失业问题提供模型依据,并概述未来 AI 进步的研究方向。
Dec, 2015
使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战,可用于测量训练复杂性和机器学习任务算法的量化层次,并建立数据集大小估计的基准以实现期望的测试准确性。
Nov, 2022
深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力,这被称为发生现象。本文提出了一个基于技能的框架,其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型,并得到了与培训时间、数据量、模型规模和最佳计算(C)有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较,其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数,能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。
Apr, 2024