该研究针对强化学习中现实世界应用的局限性,提出了一种 BRAC 的方法,并通过多个离线 RL 任务的实验,发现许多技术上的复杂性是不必要的。
Nov, 2019
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
Jun, 2021
本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。
Nov, 2022
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术,用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题,同时还能在性能和鲁棒性上实现权衡,并取得了非常好的表现。
Jun, 2022
本文介绍了解决离线强化学习面临的数据污染问题的一系列技术,包括梯度惩罚和批评家权重约束松弛等方法,并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。
Oct, 2022
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型,并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言,我们发现:i)简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择,ii)通过离线强化学习,可以从次优示范或自生成数据中学习掌握多个领域的多任务策略,包括真实的机器人任务。
Feb, 2024
该研究针对离线强化学习中策略训练不稳定的问题,通过对当前策略的无折扣平稳分布进行正则化,并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布,从而减少分布不匹配引起的误差,并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。