从离线数据中学习可变目标的控制策略

Aug, 2023

从离线数据中学习可变目标的控制策略

Learning Control Policies for Variable Objectives from Offline Data

Marc Weber, Phillip Swazinna, Daniel Hein, Steffen Udluft, Volkmar Sterzing

TL;DR离线强化学习是一种获取动态系统先进控制策略的可行方法，尤其是在无法直接与环境互动时。本文介绍了一种名为可变目标策略（VOP）的基于模型的策略搜索方法的概念扩展。通过此方法，策略被训练以有效地泛化各种目标，这些目标对奖励函数进行参数化。我们证明了通过改变作为输入传递给策略的目标，用户可以在运行时自由调整其行为或重新平衡优化目标，无需收集额外的观察数据或重新训练。

Abstract

offline reinforcement learning provides a viable approach to obtain advanced control strategies for dynamical systems, in particular when

offline reinforcement learning control strategies dynamical systems model-based policy search variable objective policy

发现论文，激发创造

离线强化学习中的潜变量优势加权策略优化

本文提出了一种名为 LAPO（latent-variable advantage-weighted policy optimization）的方法，通过使用潜变量的策略来解决离线数据集分布偏移问题，取得了在多项任务中超越同类方法的显著性能提升。

Mar, 2022

基于模型的离线规划

提出一种基于模型的离线学习算法 (MBOP)，其可以通过规划直接控制系统。该算法在一系列机器人任务中表现出良好性能，并能够创建零 - shot 目标条件策略。

Aug, 2020

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

POPO: 悲观离线策略优化

本文主要针对离线强化学习中的价值函数方法，提出了一种名为 POPO 的悲观离线策略优化算法，它学习了一种悲观的价值函数以获取强策略，相比于多个最先进的算法，在高维状态和动作空间中表现出色。

Dec, 2020

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

通过变分推断实现基于结果的强化学习

通过提出一种新的变分推断形式，从环境交互中直接学习良好的奖励函数，并使用新的概率贝尔曼反演运算符，发展了一种离线策略算法来解决目标导向任务，该方法消除了手工制作奖励函数的需要，并对各种机械操纵和运动任务产生了有效的目标导向行为。

Apr, 2021

在线规划，离线学习：基于模型控制的高效学习和探索

提出了一种 POLO (计划在线，学习离线) 框架，利用局部基于模型的控制、全局价值函数学习和探索之间的协同关系来解决需要不断在世界中行动和学习的代理问题，并探讨了轨迹优化、价值函数的近似和不确定性估计等方面的问题，最终在几分钟的真实世界体验中解决了类人运动和灵巧的手中操作这样的复杂模拟控制任务。

Nov, 2018

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023