离线强化学习的行为先验表示学习
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
Feb, 2021
本文提出了一种能够适用于机器人控制等实际问题,同时在批处理状态下能够有效学习的算法,该算法采用了优势加权行为模型 (ABM) 来对先前执行过的成功动作进行刻画,并对新的任务中可能成功的动作进行策略偏置,实验表明我们的算法在标准连续控制基准测试和多任务学习中都有着较好的效果。
Feb, 2020
该研究关注了离线基于偏好的强化学习(PbRL)的主题,引入了一种名为离线偏好指导策略优化(OPPO)的范式,通过一步过程模型化离线轨迹和人类偏好,不需要单独学习奖励函数,成功地模拟了离线偏好并胜过了竞争基线。
May, 2023
从单个离线数据集中分别学习噪声对比估计的状态表示和辅助奖励模型,能够显着提高 NetHack 基准测试的样本效率,同时突出了我们实验设置的各种组成部分和关键洞察。
Mar, 2023
在这项工作中,我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现,在线下 PBRL 设置中应用两阶段学习存在挑战,即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这一挑战,我们提出了一种通过行为约束实现的两阶段学习方法,即行动剪辑。我们的观点是,数据集中未充分覆盖的状态 - 动作只能提供有限的信息,并增加第二阶段学习问题的复杂性。我们的方法在第二阶段学习期间忽略这些状态 - 动作,以实现更高的学习效率。我们在各种机器人控制环境中通过实证验证证明了我们的方法具有较高的学习效率。
Dec, 2023
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。
Nov, 2022