计算机学习的三个时代的趋势
自 2012 年至 2023 年,使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集,我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半,置信区间为 5 到 14 个月,远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律,可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构(如变压器)的发展,我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制,我们的分析量化了语言建模的快速进展,并阐明了计算量与算法的相对贡献。
Mar, 2024
通过对深度学习应用的依赖程度的分析,本文发现目前的进展主要依赖计算能力的提升。然而,这种趋势在经济、技术和环境上都具有不可持续性。因此,要想在这些应用领域取得更进一步的进展就必须依靠更为高效的计算方法,这要么意味着改变深度学习的方法,要么就是使用其他机器学习方法。
Jul, 2020
本研究通过对 57 个顶级计算机科学会议的 171394 篇论文的研究发现,自 2012 年深度学习的出现以来,大型技术公司和精英大学已经增加了在主要人工智能会议上的参与度。然后,本文通过实证证明大型公司和非精英大学之间的分歧由于计算能力或计算机设备的缺乏,这使得机器学习技术的发展在民主化方面面临阻碍和公平性问题,从而强调了民主知识生产缺乏对专业设备的访问。
Oct, 2020
基于新的缩放定律,我们推测模型性能主要取决于计算经费的使用,而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律,我们预测(a)训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率,(b)假设可用的网络数据集已耗尽,扩大模型大小可能是进一步改善模型性能的唯一途径。
Apr, 2024
研究表明,机器学习(尤其是深度学习)发展的加速,是医学影像分析和计算机辅助干预领域取得突破的原因。然而,深度学习模型需要大量的训练数据、计算和能源成本,这是在临床部署这些模型时要克服的障碍。为了解决这个问题,机器学习社区正在努力引入资源效率概念,以减轻内存使用量等问题。本文通过探究模型资源消耗和性能之间的平衡,特别是在诊所等重要场景中使用的模型中,展示了这些方法在减少资源利用方面的有效性和性能方面的成本。
Mar, 2023
工业与学术人工智能实验室在使用计算资源方面存在显著差异,我们通过数据调查探讨了计算资源差距在塑造机器学习研究中的作用。我们发现,计算资源差距与在计算密集型研究主题,尤其是基础模型方面仅限于学术研究团队的减少相关。我们认为,学术界在推动相关技术、提供批判性评估和审查以及在这些模型的传播方面可能扮演的角色会更小。随着研究重点的变化,学术研究明显向接纳工业内部开发的开源、预训练模型方面转变。为了应对这一趋势带来的挑战,尤其是对有影响力模型的减少审查,我们建议采取一些方法,致力于有序扩展学术洞见。国家赞助的计算基础设施结合开放科学倡议可以合理地增加学术计算资源的获取,重点关注可解释性、安全性和保密性方面的研究。结构化的资源获取计划和第三方审计机制也可以允许对工业系统进行有限的外部评估。
Jan, 2024
本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状,发现其中一些趋势,包括功耗、数字精度以及推理与训练等方面的趋势,并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现,将其与报道的性能和功耗数值进行比较,并将其与嵌入式应用程序中使用的 Intel CPU 进行评估。
Aug, 2019
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
通过将深度学习的效率作为评估标准之一,并建议报告开发、训练和运行模型的财务成本,以提供研究越来越高效方法的基准,本文旨在使人工智能更加绿色和包容,实现任何有灵感的本科生都可以编写高质量的研究论文。
Jul, 2019