计算机学习的三个时代的趋势

Feb, 2022

Compute Trends Across Three Eras of Machine Learning

Jaime Sevilla, Lennart Heim, Anson Ho, Tamay Besiroglu, Marius Hobbhahn...

TL;DR本文研究现代机器学习中指导进步的三个基本因素：计算、数据和算法。我们着重研究了计算这一因素在训练中的变化趋势，并发现自从深度学习的出现以来，训练计算的扩展速度加快，大约每 6 个月翻倍一次。此外，我们还将计算在机器学习中分为三个时代：深度学习前，深度学习时代和大规模时代。总体上，我们的工作强调了训练高级机器学习系统所需计算的快速增长。

Abstract

compute, data, and algorithmic advances are the three fundamental factors that guide the progress of modern machine learning (ML). In this paper we study trends in the most readily quantified factor -

machine learning compute training deep learning scaling

发现论文，激发创造

语言模型的算法进展

自 2012 年至 2023 年，使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集，我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半，置信区间为 5 到 14 个月，远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律，可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构（如变压器）的发展，我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制，我们的分析量化了语言建模的快速进展，并阐明了计算量与算法的相对贡献。

Mar, 2024

测量神经网络算法效率

通过计算量的减少和算法效率的提高，探讨了算法进步方面的量化问题，认为硬件和算法的效率提升是倍增的，应该综合考虑这两个因素来评估人工智能的进展。

May, 2020

深度学习的计算界限

通过对深度学习应用的依赖程度的分析，本文发现目前的进展主要依赖计算能力的提升。然而，这种趋势在经济、技术和环境上都具有不可持续性。因此，要想在这些应用领域取得更进一步的进展就必须依靠更为高效的计算方法，这要么意味着改变深度学习的方法，要么就是使用其他机器学习方法。

Jul, 2020

AI 的非民主化：深度学习与人工智能研究中的计算差距

本研究通过对 57 个顶级计算机科学会议的 171394 篇论文的研究发现，自 2012 年深度学习的出现以来，大型技术公司和精英大学已经增加了在主要人工智能会议上的参与度。然后，本文通过实证证明大型公司和非精英大学之间的分歧由于计算能力或计算机设备的缺乏，这使得机器学习技术的发展在民主化方面面临阻碍和公平性问题，从而强调了民主知识生产缺乏对专业设备的访问。

Oct, 2020

更多计算是您所需之物

基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Apr, 2024

在资源受限环境中运行关键的机器学习模型

研究表明，机器学习（尤其是深度学习）发展的加速，是医学影像分析和计算机辅助干预领域取得突破的原因。然而，深度学习模型需要大量的训练数据、计算和能源成本，这是在临床部署这些模型时要克服的障碍。为了解决这个问题，机器学习社区正在努力引入资源效率概念，以减轻内存使用量等问题。本文通过探究模型资源消耗和性能之间的平衡，特别是在诊所等重要场景中使用的模型中，展示了这些方法在减少资源利用方面的有效性和性能方面的成本。

Mar, 2023

机器学习中的计算分化：对学术贡献与审查的威胁？

工业与学术人工智能实验室在使用计算资源方面存在显著差异，我们通过数据调查探讨了计算资源差距在塑造机器学习研究中的作用。我们发现，计算资源差距与在计算密集型研究主题，尤其是基础模型方面仅限于学术研究团队的减少相关。我们认为，学术界在推动相关技术、提供批判性评估和审查以及在这些模型的传播方面可能扮演的角色会更小。随着研究重点的变化，学术研究明显向接纳工业内部开发的开源、预训练模型方面转变。为了应对这一趋势带来的挑战，尤其是对有影响力模型的减少审查，我们建议采取一些方法，致力于有序扩展学术洞见。国家赞助的计算基础设施结合开放科学倡议可以合理地增加学术计算资源的获取，重点关注可解释性、安全性和保密性方面的研究。结构化的资源获取计划和第三方审计机制也可以允许对工业系统进行有限的外部评估。

Jan, 2024

机器学习加速器调查和基准测试

本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状，发现其中一些趋势，包括功耗、数字精度以及推理与训练等方面的趋势，并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现，将其与报道的性能和功耗数值进行比较，并将其与嵌入式应用程序中使用的 Intel CPU 进行评估。

Aug, 2019

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

绿色人工智能

通过将深度学习的效率作为评估标准之一，并建议报告开发、训练和运行模型的财务成本，以提供研究越来越高效方法的基准，本文旨在使人工智能更加绿色和包容，实现任何有灵感的本科生都可以编写高质量的研究论文。

Jul, 2019