将离线强化学习重新构建为回归问题
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线RL的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
本文提出了一种称为Reanalyse的算法,能够在固定数据集和与环境交互的情况下,使用模型为基础的策略和价值改进算子来计算改进训练目标,并在多个数据预算范围内实现高效学习。此外,结合MuZero算法,提出了MuZero Unplugged,它是一种单一统一算法,能够适用于任何数据预算,包括离线Reinforcement Learning(RL),并在RL Unplugged离线RL基准测试和标准200万帧的Atari在线RL基准测试中取得了新的最先进结果。
Apr, 2021
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
Jun, 2021
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
Feb, 2023
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略, 预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
Apr, 2023
研究表明,线下强化学习算法具有一定的鲁棒性,即使使用错误的奖励标签经过训练,也能产生表现良好和安全的策略。该现象归功于线下RL算法中的悲观主义和常见数据收集实践中的某种偏见之间的相互作用,该特性在解释现有离线RL基准结果和创建未来基准时应该被考虑。
Jun, 2023
离线强化学习算法被证明在与目标下游任务高度相关的数据集上非常有效,然而,在轨迹来自不同源头的新测试平台(MOOD)上,我们发现现有方法在面对不同数据时效果明显下降:随着收集到的与任务相关但不同的数据简单地添加到离线缓冲区,它们的性能显著恶化。鉴于此发现,我们进行了大规模经验证明,规模是影响性能的关键因素而非算法上的考虑。我们展示了简单的方法(如AWAC和IQL)通过增加网络规模来克服MOOD中添加附加数据所产生的悖论性失败,且在经典的D4RL基准测试中明显优于先前的最新算法。
Mar, 2024