离线强化学习中的样本内策略迭代

Jun, 2023

离线强化学习中的样本内策略迭代

In-Sample Policy Iteration for Offline Reinforcement Learning

Xiaohan Hu, Yi Ma, Chenjun Xiao, Yan Zheng, Zhaopeng Meng

TL;DR本文提出了一种新的算法，采用样本内策略迭代技术，通过在最小化数据收集策略的偏差的同时优化控制策略，可以显著提高离线强化学习中行为规则方法的性能，从而实现对以前收集的数据的有效控制。最后，基于 D4RL 基准测试的实验结果表明，该算法在大多数任务上优于以前的最先进方法。

Abstract

offline reinforcement learning (RL) seeks to derive an effective control policy from previously collected data. To circumvent errors due to inadequate data coverage, behavior-regularized methods optimize the cont

offline reinforcement learning behavior-regularized methods in-sample policy iteration competitive policy improvement d4rl benchmark

发现论文，激发创造

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

离线强化学习中的样本内 Softmax

研究表明，在强化学习中，使用数据集中的动作来逼近 softmax 比逼近 max 更为简单，并提出基于此的在线学习算法 In-Sample Actor-Critic，该算法表现良好且适合微调。

Feb, 2023

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

无 OOD 动作的离线强化学习：通过隐含价值规范进行样本内学习

本论文针对离线强化学习中，在分布转变时计算 Q 值的问题，提出了基于量化回归的 IQL 策略，结合隐含值规范化框架提出了 SQL 和 EQL 算法，实验结果验证了算法的有效性和鲁棒性。

Mar, 2023

离线增强学习与在线策略 Q 函数规范化

提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。

Jul, 2023