离线强化学习的状态优势加权

Oct, 2022

State Advantage Weighting for Offline RL

Jiafei Lyu, Aicheng Gong, Le Wan, Zongqing Lu, Xiu Li

TL;DR本文提出了一种基于状态优势加权和 QSS 学习的离线强化学习方法，相比于传统的基于动作优势的方法能够更好地实现从离线到在线的转移，实验结果显示，该方法在 D4RL 数据集上表现出显著的性能优势和良好的泛化能力。

Abstract

We present state advantage weighting for offline reinforcement learning (RL). In contrast to action advantage $A(s,a)$ that we commonly adopt in QSA learning, we leverage state advantage $A(s,s^\prime)$ and

发现论文，激发创造

离线强化学习的超参数选择

本篇论文研究了针对离线数据选择最佳RL策略的离线超参数选择方法，并通过大规模实证研究表明：1）离线RL算法对超参数的选择不具有健壮性，2）离线RL算法和Q值估计方法等因素对超参数选择具有较大影响，3）通过控制这些因素，我们可以可靠地对超参数选择进行排名，从而选择最接近设定中最佳策略的策略。

Jul, 2020

基于优势权重的离线元强化学习

本文介绍了离线元强化学习设置，并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法，称为Meta-Actor Critic with Advantage Weighting (MACAW)。在常见的元RL基准的离线变量上，我们通过实验发现该方法能够实现完全离线元强化学习，并且比之前的方法有显着的提高。

Aug, 2020

离线强化学习的不确定性加权演员-评论家算法

提出了一种名为Uncertainty Weighted Actor-Critic（UWAC）的离线强化学习算法，采用基于dropout的不确定性估计方法来检测out-of-distribution（OOD）状态-动作对并相应地减小其在训练目标中的贡献，实验结果表明UWAC算法在提高模型稳定性和稀疏演示数据集上的表现上显著优于现有离线RL算法。

May, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线RL算法相当的性能。

Jun, 2021

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制/正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

本文提出提高离线强化学习性能的方法: 使用ResNets、基于交叉熵的分布备份、特征标准化，取得了良好的性能和容量扩展性。同时，作者展示了通过多样化数据集的离线Q学习可以学习到有用的表示，并实现快速传输到新游戏和在线学习的目标。

Nov, 2022

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。

Feb, 2023

离线到线上强化学习中Q值估计的视角

离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究O2O RL中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的Q值估计。为解决这个问题，我们采用了两种技术：扰动值更新和增加Q值更新的频率。我们的实验证明，提出的方法SO2显著缓解了Q值估计问题，并相对于最先进的方法改进了性能高达83.1%。

Dec, 2023

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的Advantage-Aware Policy Optimization (A2PO)方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在D4RL基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024