无需离线策略评估的离线强化学习
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
Jul, 2023
该研究提出了一种 Policy-guided Offline RL 算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。
Oct, 2022
本论文提出了一种算法,使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题,通过调整运行时的设定,可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度,并在策略降级或行为过于偏离熟悉行为时随时停止。
May, 2022
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性,就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限,并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
本研究提出了行为约束的策略优化方法,通过模拟历史状态转移,采用先进的算法,成功地实现了通过行为约束进行离线强化学习。研究中,我们提出了闭式策略改进算子。我们首次发现,行为约束自然促使使用一阶泰勒展开,从而线性逼近策略目标。此外,由于实际数据通常由异构策略收集,因此我们将行为策略建模为高斯混合,并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难,得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法,并在标准 D4RL 基准测试上成功地实验验证了其有效性。
Nov, 2022
本文通过对线下单调策略改进的分析得出有趣结论,即一些在线策略算法天生就能解决离线 RL 问题,而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的,无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。
Feb, 2023
本文提出了一种新的算法,采用样本内策略迭代技术,通过在最小化数据收集策略的偏差的同时优化控制策略,可以显著提高离线强化学习中行为规则方法的性能,从而实现对以前收集的数据的有效控制。最后,基于 D4RL 基准测试的实验结果表明,该算法在大多数任务上优于以前的最先进方法。
Jun, 2023