离线强化学习的优势感知策略优化

Mar, 2024

离线强化学习的优势感知策略优化

Advantage-Aware Policy Optimization for Offline Reinforcement Learning

Yunpeng Qing, Shunyu liu, Jingyuan Cong, Kaixuan Chen, Yihe Zhou...

TL;DR离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Abstract

offline reinforcement learning (RL) endeavors to leverage offline datasets to craft effective agent policy without online interaction, which imposes proper conservative constraints with the support of behavior policies to tackle the Out-Of-Distribution (OOD) problem. However, existing

offline reinforcement learning out-of-distribution problem advantage-weighted methods advantage-aware policy optimization conditional variational auto-encoder

发现论文，激发创造

自适应优势引导的策略规范化用于离线强化学习

通过自适应优势导向的策略规范化方法（A2PR），我们能够在离线强化学习中解决样本分布外问题，通过生成匹配数据点分布的样本，有效地选择高优势动作，并在保持一定保守性的同时改进行为策略，从而达到改进策略的理论保障，以及有效减轻价值函数高估的性能差距。

May, 2024

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

使用动作偏好查询提升离线强化学习

本文介绍了一种称为 OAP 的无交互培训方案，该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制，从而更准确地评估未见数据，实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分（平均增加 29％），特别是在具有挑战性的 AntMaze 任务上（增加 98％）。

Jun, 2023

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

基于优势权重的离线元强化学习

本文介绍了离线元强化学习设置，并提出了一个能在该设置中表现优异的算法。我们提出了用于内外循环的简单监督回归目标的基于优化的元学习算法，称为 Meta-Actor Critic with Advantage Weighting (MACAW)。在常见的元 RL 基准的离线变量上，我们通过实验发现该方法能够实现完全离线元强化学习，并且比之前的方法有显着的提高。

Aug, 2020

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023

优势加权回归：简单且可扩展的离线策略强化学习

该论文旨在开发一种简单且可扩展的增强学习算法，使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现，能够适应连续和离散行动，其性能与许多最先进的 RL 算法相当，无需其他环境交互即可从纯静态数据集中获取更有效的策略。

Oct, 2019

通过轻量级不确定性估计的对抗策略优化克服奖励过度优化

引入对抗性策略优化 (AdvPO) 作为一种解决强化学习从人类反馈中的奖励过度优化问题的新方法，通过对奖励模型的不确定性进行量化，并通过分布鲁棒优化处理奖励模型的置信区间，从而增强性能。

Mar, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法，具有统计上证明的方差降低性质，应用于多个 OpenAI Gym 中的任务，并在 D4RL 基准测试中取得了性能改进，优于基线方法，展示了序列建模强化学习中双策略估计的优势。

Aug, 2023