体验回放的基础知识重新审视
本研究从经验重放和模型的角度出发,对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究,在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果,为算法应用方面提供了新的思路。
Feb, 2023
本研究提出了一种使用经验回放的深度强化学习模型,并通过 ODE 模型及实验进行研究发现,在适当的记忆大小下,可以加速学习并提高代理人的表现,但当记忆容量偏大或偏小时,学习反而变慢,同时也证明了优先重放经验不一定有助于提高代理人的学习效果。最后,我们提出了一种自适应调整记忆缓冲区大小的算法,其表现良好。
Oct, 2017
本文系统地对经验回放进行了实证研究,发现经验回放的缓存大小超过一定阈值会严重影响性能;同时提出了一种 O (1) 方法来缓解大缓存在深度强化学习中的负面影响,并在简单的网格世界和具有挑战性的 Atari 游戏中证明了其效用。
Dec, 2017
提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励,此方案交替更新两种策略:代理策略和回放策略,其中代理策略基于回放数据最大化累积奖励,而回放策略则提供代理经验最有用的经验,实验表明,此方案可以改进离线策略强化学习算法的性能。
Jun, 2019
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
本文研究通过经验重放的方法,利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点,结果表明分布匹配算法可以成功避免严重忘却问题,并且在所有测试领域中始终表现最佳。同时我们发现,当部分任务的重要性比其他任务更高时,最大化状态空间覆盖率是有福利的。
Feb, 2018
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法,通过从目标 Q 网络到当前 Q 网络合并知识,减少遗忘并保持高的样本效率。与基线方法相比,在特征和图像任务中取得了相当或更好的性能,同时减轻了大经验重放缓冲区的负担。
May, 2022