小批次深度强化学习

Oct, 2023

Small batch deep reinforcement learning

Johan Obando-Ceron, Marc G. Bellemare, Pablo Samuel Castro

TL;DR在价值导向的深度强化学习中，回放记忆中的批大小参数指定了每次梯度更新要采样多少转换。尽管在提出新算法时通常不会调整此值，但它对于学习过程非常关键。在这项工作中，我们进行了一项广泛的实证研究，表明减小批大小可能导致许多显著的性能提升；这令人惊讶，因为训练神经网络时一般倾向于使用较大的批大小以获得改进的性能。我们通过一系列经验分析来补充我们的实验结果，以更好地理解这种现象。

Abstract

In value-based deep reinforcement learning with replay memories, the batch size parameter specifies how many transitions to sample for each gradient update. Although critical to the learning process, this value i

value-based deep reinforcement learning replay memories batch size gradient update neural networks

发现论文，激发创造

小批次有利可图？探究批次大小对基于强化学习的实际生产调度的影响

通过使用强化学习算法解决实际生产线上的排产问题，本研究探讨了产品批次大小对解决方案质量和强化学习算法的训练动态的影响，并提出了两种新的课程学习策略，为小批量训练提供支持。这些研究结果可应用于与排产问题类似的多个工业场景。

Jun, 2024

重新审视深度神经网络的小批量训练

本文研究了基于小批量样本随机梯度优化的现代深度神经网络训练中，不同批量大小对测试性能和泛化性能的影响，并指出使用小批量训练可以提供更稳定和可靠的结果。

Apr, 2018

大批量训练的实证模型

本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小，结果表明该参数可以在很多领域都适用，包括监督学习数据、强化学习领域以及生成模型训练。

Dec, 2018

小批量大小提高低资源神经机器翻译训练

本研究证明在低资源训练中，相比于 GPU 内存允许的大批量训练，小批量训练在较短时间内可以得到更高的分数，并说这是由于在训练过程中梯度更好的正则化所导致的。

Mar, 2022

绿色 AI 批处理 — 基于推理的探索性研究

研究了输入批处理对计算机视觉的五个全面训练的神经网络的能源消耗和响应时间的影响，结果表明批处理对这两个指标都有显著影响。此外，通过过去十年的能源效率和准确性时间线，发现能源消耗上升速度比准确性快得多，质疑了这种发展的必要性。

Jul, 2023

AdaBatch：用于训练深度神经网络的自适应批量大小

本研究发展一种新的训练方法，在训练过程中自适应地增加 batch size，以达到小 batch size 的收敛速率和大 batch size 的性能表现。实验结果表明，在多个网络模型中，采用自适应 batch size 训练能够显著提高算法性能，同时精度变化不超过 1％。

Dec, 2017

可证明的好的无须强探索批量强化学习

本文介绍了一种基于 Bellman 备份的批量强化学习算法，它采用一种更加保守的更新策略来提高输出策略的性能保证，并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。

Jul, 2020

离线强化学习中的 Q-Ensemble 方法：不是扩大模型规模而是扩大训练批次

本研究在深度离线强化学习方法中探讨了大批量优化的应用，提出采用适当的学习率调整和小批量缩放的方法，可以明显地加快模型训练速度，从而在控制 Q-ensemble 数量、强化对分布外行为的惩罚力度和提高收敛速度等方面产生了积极的效应。

Nov, 2022

将自适应批量大小与学习率相结合

本论文提出了动态批次大小自适应方法，通过估计随机梯度的方差并将批次大小调整为与目标函数成比例的方式，从而消除了先前所述的学习速率降低的需要。与相关工作不同的是，我们的算法将批次大小与学习速率相结合，直接反映了两者之间的已知关系。在流行的图像分类基准测试中，我们的批次大小自适应可以更快地优化收敛，同时简化学习速率调整。

Dec, 2016

基于批次的深度强化学习算法基准测试

本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试，并发现在这些条件下，许多算法表现不佳，而 Batch-Constrained Q-learning 算法适应离散动作环境后在这项任务中表现最佳。

Oct, 2019