超越 OOD 状态行为:支持跨域离线强化学习
该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。
Jun, 2024
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
离线到在线强化学习 (RL) 是一种训练范式,它将在预先收集的数据集上进行预训练,并在在线环境中进行微调。然而,在线微调的引入可能加剧已知的分布偏移问题。现有的解决方案通过对离线和在线学习中的策略改进目标施加策略约束来解决这个问题。它们通常提倡在不同数据集之间采用单一的平衡。鉴于不同状态下数据质量的显著变化,这种一刀切的方式可能无法充分利用每个收集样本。为此,我们引入了家族离线到在线 RL (FamO2O) 的简单而有效的框架,使现有算法能够确定适应状态的改进约束平衡。FamO2O 利用一个通用模型训练一族具有不同改进 / 约束强度的策略,同时使用一个平衡模型为每个状态选择适当的策略。从理论上来说,我们证明了状态自适应平衡对于实现更高的策略性能上限是必要的。经验上,大量实验证明 FamO2O 相对于各种现有方法具有统计显著改进,在 D4RL 基准上实现了最先进的性能。代码可在此网址获得
Oct, 2023
我们考虑了混合强化学习的情境,在该情境下,智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息,但仅包含状态信息的数据集(也称为仅观测数据集)更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型(即,可以复位到任何状态的模型)的情况下,可以解决与离线数据中的最佳策略竞争的任务。然而,我们展示了在仅获得较弱的追踪模型时(即,只能复位到初始状态并必须通过环境产生完整轨迹),且没有对离线数据的可接受性假设的情况下,问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验,表明我们的算法在实践中的有效性。
Jun, 2024
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法,通过不确定性和平滑性来增强离线策略,并在在线适应中减少性能下降,实验结果表明其在促进稳定的离线到在线学习方面具有优越性。
Sep, 2023
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本研究提出了一个新的混合离线 - 在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供了全新的思路。
Jun, 2022