使用动作偏好查询提升离线强化学习

Jun, 2023

使用动作偏好查询提升离线强化学习

Boosting Offline Reinforcement Learning with Action Preference Query

Qisen Yang, Shenzhi Wang, Matthieu Gaetan Lin, Shiji Song, Gao Huang

TL;DR本文介绍了一种称为 OAP 的无交互培训方案，该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制，从而更准确地评估未见数据，实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分（平均增加 29％），特别是在具有挑战性的 AntMaze 任务上（增加 98％）。

Abstract

Training practical agents usually involve offline and online reinforcement learning (RL) to balance the policy's performance and interaction costs. In particular, online fine-tuning has become a commonly used method to correct the erroneous estimates of out-of-distribution data learned

reinforcement learning offline training online fine-tuning policy constraint oap

发现论文，激发创造

离线强化学习的偏好调查

利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。

Jun, 2024

离线基于偏好的学徒学习

该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法，该方法不需要真实物理试验或准确的模拟器，并能够学习完成离线数据未曾显示的新任务。

Jul, 2021

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

无需动作的离线预训练辅助在线强化学习

本研究探讨了使用无动作信息的离线数据集来提高在线强化学习的潜力，提出了一种名为 “AF-Guide” 的方法，并通过实验证明其可以提高在线训练的效率和性能。

Jan, 2023

在线偏好中的积极奖励学习

为了实现机器人在不同环境和人类偏好中的适应性，本研究提出了在线稀疏二元偏好查询的方法，通过设计查询和决定何时呈现查询来最大化查询结果的信息价值，从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担，在模拟，人类用户研究和真实机器人实验中，该方法表现优于传统技术并减少人类专家的查询负担。

Feb, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线强化学习的优化扩散策略

离线强化学习研究了优化策略的方法，使用扩散模型进行模拟，通过首选动作优化提高性能，在稀疏奖励任务中表现出竞争力或卓越性能，同时证明了抗噪声偏好优化的有效性。

May, 2024

高效的二阶段线下深度强化学习与偏好反馈

在这项工作中，我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现，在线下 PBRL 设置中应用两阶段学习存在挑战，即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这一挑战，我们提出了一种通过行为约束实现的两阶段学习方法，即行动剪辑。我们的观点是，数据集中未充分覆盖的状态 - 动作只能提供有限的信息，并增加第二阶段学习问题的复杂性。我们的方法在第二阶段学习期间忽略这些状态 - 动作，以实现更高的学习效率。我们在各种机器人控制环境中通过实证验证证明了我们的方法具有较高的学习效率。

Dec, 2023