离线多目标强化学习扩展帕累托高效决策

ICLRApr, 2023

离线多目标强化学习扩展帕累托高效决策

Scaling Pareto-Efficient Decision Making Via Offline Multi-Objective RL

Baiting Zhu, Meihua Dang, Aditya Grover

TL;DR本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Abstract

The goal of multi-objective reinforcement learning (MORL) is to learn policies that simultaneously optimize multiple competing objectives. In practice, an agent's preferences over the objectives may not be known

multi-objective reinforcement learning offline learning preferences datasets pareto-efficient decision agents

发现论文，激发创造

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

政策规范化的离线多目标强化学习

本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置，以达到上述目标。然而，在离线多目标强化学习设置中，存在新的挑战，即偏好不一致演示问题。我们提出了两个解决方案：1）通过近似行为偏好来过滤偏好不一致的演示，和 2）采用具有高策略表达能力的正则化技术。此外，我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中，以便使用单个策略网络同时学习一组策略，从而减少训练大量不同偏好的个体策略所带来的计算成本。最后，我们引入了正则化权重适应机制，在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。

Jan, 2024

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

MOReL：基于模型的离线强化学习

本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。

May, 2020

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

约束多目标强化学习的尺度不变梯度聚集

多目标强化学习中，为了满足预定义的约束条件，我们提出了一种新的算法 CoMOGA，将原始的约束优化问题转化为带有附加约束的优化问题，并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估，该方法在满足约束和保持目标尺度不变方面优于其他基线模型。

Mar, 2024

差分隐私模型导向的离线强化学习

我们提出了具有隐私保证的离线增强学习方法，目标是训练一种与数据集中的个体轨迹具有差异隐私的策略。为了实现这一目标，我们引入了 DP-MORL，一个带有差分隐私保证的 MBRL 算法。首先，使用 DP-FedAvg 从离线数据中学习到环境的私有模型，DP-FedAvg 是一种为神经网络提供轨迹级差分隐私保证的训练方法。然后，我们使用基于模型的策略优化从（受惩罚的）私有模型中推导出一个策略，而无需与系统进行进一步交互或访问输入数据。通过实验证明，DP-MORL 使得可以从离线数据中训练私有的增强学习智能体，并进一步给出了在此设置中隐私的代价。

Feb, 2024

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020