从分布式机器学习到分布式深度学习的调查
本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担,但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。
Dec, 2019
在深度学习、卷积神经网络和大型语言模型的时代,机器学习模型变得越来越复杂,需要大量的计算资源进行推理和训练。为了解决这个挑战,分布式学习已经成为一种关键方法,通过在各种设备和环境中进行并行化来实现。本调查研究对分布式学习的领域进行了探索,涵盖了云端和边缘设置。我们深入研究了数据和模型并行性的核心概念,研究了如何在不同维度和层次上对模型进行分割以优化资源利用和性能。我们分析了针对不同层类型的各种分割方案,包括全连接层、卷积层和循环层,突出了计算效率、通信开销和内存限制之间的权衡。这项调查研究通过比较和对比不同背景下的分布式学习方法,为未来的研究和发展提供了宝贵的见解。
May, 2024
提出了一种基于跨数据源的深度神经网络训练技术,旨在解决在健康医疗和金融等领域中标记数据和计算资源的短缺问题,并可以在数据敏感应用程序中进行分布式训练。
Oct, 2018
这篇文章调查了 2018 年至 2023 年期间关于算法和技术的文献,旨在实现大规模分布式深度学习中的高效通信,包括算法、框架和基础设施。具体而言,我们首先介绍了在大规模分布式训练中模型同步和通信数据压缩方面的高效算法。接下来,我们介绍了与分布式训练和推理中资源分配和任务调度相关的高效策略。此后,我们介绍了现代通信基础设施中使用的最新技术,重点研究了大规模和异构环境下通信开销的影响。最后,我们通过对大规模语言模型的分布式训练进行案例研究,展示了如何在实际情况中应用这些技术。这篇文章旨在为研究人员提供对大规模分布式深度学习的现状全面的理解,并揭示在这一领域中通信高效解决方案的有希望的未来研究方向。
Apr, 2024
本文综述分布式深度强化学习的研究进展,对比不同方法、研究关键因素,回顾工具箱的发展,并且基于综述开发出多人、多智能体分布式深度强化学习工具箱,并在复杂游戏环境中进行验证。最后指出未来挑战和发展方向。
Dec, 2022