大规模深度学习模型的高效训练:文献综述
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移/紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
本文研究使用仅依赖梯度的统计量(gradient noise scale)来预测各种深度学习模型中最适合的batch size的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。
Dec, 2018
提出一个用于深度学习优化基准的Python包DeepOBS,该包包括广泛和可扩展的真实优化问题集,以及最流行的优化器的基准结果,支持TensorFlow,并提供直接生成LaTeX代码的输出后端。
Mar, 2019
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实验。
Jun, 2021
本文概述了在大规模深度学习中如何优化模型的准确性和效率,讨论了优化中使用的算法、大批量训练中出现的泛化差距问题,并回顾了最新的解决通信负担和减少内存占用的策略。
Nov, 2021
本研究旨在回顾各种最先进技术,探讨如何通过序列减少训练参数和使用像全局均值池化、深度卷积和挤压、模糊化池等技术进行分阶段训练来构建高效的深度卷积网络,并成功实现了在MNIST数据集上仅使用1500个参数达到99.2%的高准确度,并在CIFAR-10数据集上仅使用超过140K个参数达到了86.01%的高准确度。
May, 2022
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023
这篇文章调查了2018年至2023年期间关于算法和技术的文献,旨在实现大规模分布式深度学习中的高效通信,包括算法、框架和基础设施。具体而言,我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来,我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后,我们介绍了现代通信基础设施中使用的最新技术,重点研究了大规模和异构环境下通信开销的影响。最后,我们通过对大规模语言模型的分布式训练进行案例研究,展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解,并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。
Apr, 2024
我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了BERT/GPT-Base模型的计算成本约20%,以及BERT-Large模型的计算成本高达51.6%,同时保持了性能。
Apr, 2024
本研究解决了大型语言模型预训练阶段效率低下的问题,提出了一种名为HyperCloning的新方法,用小模型对大型模型进行初始化。这种方法使大型模型在训练前继承小模型的预测能力,从而显著减少预训练所需的GPU时间。
Sep, 2024