离线强化学习中的 Q-Ensemble 方法:不是扩大模型规模而是扩大训练批次
本文提出提高离线强化学习性能的方法:使用 ResNets、基于交叉熵的分布备份、特征标准化,取得了良好的性能和容量扩展性。同时,作者展示了通过多样化数据集的离线 Q 学习可以学习到有用的表示,并实现快速传输到新游戏和在线学习的目标。
Nov, 2022
本文研究使用仅依赖梯度的统计量 (gradient noise scale) 来预测各种深度学习模型中最适合的 batch size 的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。
Dec, 2018
本文提出了一种基于不确定性的离线强化学习方法,考虑 Q 值预测的置信度,不需要对数据分布进行估计或抽样,并提出了一种集合多样化的演员 - 批评家算法,该算法在大多数 D4RL 基准测试中实现了最先进的性能。
Oct, 2021
本文提出了一种新的线性逐渐预热的方法(LEGW),此方法可以在大批量 CNN 和 RNN 训练中实现 sqrt scaling scheme,同时不会丢失精度,并实现比之前的自动调整技术更好的表现,提高了四个基于 LSTM 的应用程序的平均速度。
Jan, 2019
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型,并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言,我们发现:i)简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择,ii)通过离线强化学习,可以从次优示范或自生成数据中学习掌握多个领域的多任务策略,包括真实的机器人任务。
Feb, 2024
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线性能增强,显著优于现有的离线到在线 RL 方法,能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性,学习效率和最终性能。
Jun, 2023
在价值导向的深度强化学习中,回放记忆中的批大小参数指定了每次梯度更新要采样多少转换。尽管在提出新算法时通常不会调整此值,但它对于学习过程非常关键。在这项工作中,我们进行了一项广泛的实证研究,表明减小批大小可能导致许多显著的性能提升;这令人惊讶,因为训练神经网络时一般倾向于使用较大的批大小以获得改进的性能。我们通过一系列经验分析来补充我们的实验结果,以更好地理解这种现象。
Oct, 2023
本文提出了一种名为 BatchEnsemble 的集成方法,其计算和内存成本比典型集成方法低得多,可以在多个设备上并行计算,具有较高的准确性和良好的不确定性,适用于终身学习任务。
Feb, 2020