本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。
Nov, 2022
本文提出了一种基于评价器正则化回归算法(CRR)的新型离线强化学习算法,它能够在高维状态和动作空间下解决固定数据集的离线学习问题,在广泛的基准任务上表现出优越性能。
Jun, 2020
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
Jun, 2021
通过设计实验,研究离线强化学习算法中较不重要但仍影响效果的设计决策,并提出了一种集成这些设计元素的算法 ReBRAC,它在 51 个数据集上得到了最先进的表现。通过大规模实验,我们进一步证明了这些设计决策的功效。
May, 2023
基于强化学习的离策略算法 OBAC 通过对值进行比较,识别出性能表现优越的线下策略,并将其作为自适应约束条件,以保证更强的策略学习表现。实验结果表明,在样本效率和渐近性能方面,OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法,涵盖了 6 个任务套件共 53 个任务。
May, 2024
本文介绍一种可在实际机器人控制中应用的,将过往数据和在线学习相结合的策略,使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。
本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。
Apr, 2022
离线演员 - 评论家强化学习能够扩展到大规模模型(如变压器)并遵循监督学习的相似扩展规律。我们发现,离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中,能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型,并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言,我们发现:i)简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择,ii)通过离线强化学习,可以从次优示范或自生成数据中学习掌握多个领域的多任务策略,包括真实的机器人任务。
Feb, 2024
通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体,并结合最新的正则化技术,我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。
Mar, 2024
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
Dec, 2023