闭合形式策略改进算子下的离线强化学习

Nov, 2022

闭合形式策略改进算子下的离线强化学习

Offline Reinforcement Learning with Closed-Form Policy Improvement Operators

Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang...

TL;DR本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据通常由异构策略收集，因此我们将行为策略建模为高斯混合，并通过利用 LogSumExp 的下界和 Jensen 不等式克服引入的优化困难，得到闭式策略改进算子。我们使用这种新颖的策略改进算子实例化离线 RL 算法，并在标准 D4RL 基准测试上成功地实验验证了其有效性。

Abstract

Behavior constrained policy optimization has been demonstrated to be a successful paradigm for tackling offline reinforcement learning. By exploiting historical transitions, a policy is trained to maximize a learned value function while constrained by the behavior policy to avoid a sig

offline reinforcement learning behavior-constrained policy optimization policy improvement operators heterogeneous policies d4rl benchmark

发现论文，激发创造

有限探索的双层离线策略优化

我们研究线下强化学习，旨在根据固定、预先收集的数据集学习出良好的策略。我们提出了一种双层结构的策略优化算法，通过模拟策略（上层）和值函数（下层）之间的层次交互来解决此任务中的分布偏移问题，尤其是在函数逼近的情况下。

Oct, 2023

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性，就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限，并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

局部约束策略优化用于非平稳输入驱动环境的在线强化学习

该论文介绍了一种针对在线强化学习中遇到的忘记、变化等问题的新策略，利用本地约束策略优化（LCPO）来优化当前经验，基于旧经验进行策略衔接，有效地在用于实验室中的合成数据和来自真实电脑系统的数据中进行了验证，结果表明，它在在线设置下优于最先进的策略和离线策略学习方法，并且达到了预先训练整个输入跟踪的离线代理的水平。

Feb, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021