自适应优势引导的策略规范化用于离线强化学习

ICMLMay, 2024

自适应优势引导的策略规范化用于离线强化学习

Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning

Tenglong Liu, Yang Li, Yixing Lan, Hao Gao, Wei Pan...

TL;DR通过自适应优势导向的策略规范化方法（A2PR），我们能够在离线强化学习中解决样本分布外问题，通过生成匹配数据点分布的样本，有效地选择高优势动作，并在保持一定保守性的同时改进行为策略，从而达到改进策略的理论保障，以及有效减轻价值函数高估的性能差距。

Abstract

In offline reinforcement learning, the challenge of out-of-distribution (OOD) is pronounced. To address this, existing methods often constrain the learned policy through →

offline reinforcement learning out-of-distribution policy regularization adaptive advantage-guided policy regularization value overestimation

发现论文，激发创造

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

通过数据集约束的政策正则化用于离线强化学习

本文提出了一种名为 PRDC 的政策正则化算法，该算法通过数据集约束从离线强化学习的数据集中学习最佳政策，能够缓解价值高估问题并在一组机器人应用上实现了最先进的性能．

Jun, 2023

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

机器人技能学习的动作量化离线强化学习

我们提出了一种自适应的行动量化方案，通过使用 VQ-VAE 学习状态条件的行动量化，避免了行动空间的指数爆炸问题，并通过离线强化学习方法在基准测试中改进了性能，同时在 Robomimic 环境中的复杂机器人操作任务中，离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。

Oct, 2023

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

使用动作偏好查询提升离线强化学习

本文介绍了一种称为 OAP 的无交互培训方案，该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制，从而更准确地评估未见数据，实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分（平均增加 29％），特别是在具有挑战性的 AntMaze 任务上（增加 98％）。

Jun, 2023

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024