分而治之：利用多目标强化学习可证明揭示帕累托前沿

Feb, 2024

分而治之：利用多目标强化学习可证明揭示帕累托前沿

Divide and Conquer: Provably Unveiling the Pareto Front with Multi-Objective Reinforcement Learning

Willem Röpke, Mathieu Reymond, Patrick Mannion, Diederik M. Roijers, Ann Nowé...

TL;DR多目标强化学习中的一个重要挑战是在不同偏好下获得达到最优性能的政策帕累托前沿，本文引入了迭代帕累托参考优化（IPRO），一种将寻找帕累托前沿的任务分解成一系列单目标问题的原则性算法，以此实现收敛性保证并在每一步给出到未发现帕累托最优解的距离上限，实证评估表明 IPRO 与需要额外领域知识的方法相当甚至优于其，通过利用问题特定的单目标求解器，本方法也在路径规划和优化等领域具有潜力。

Abstract

A significant challenge in multi-objective reinforcement learning is obtaining a pareto front of policies that attain optimal performance under different preferences. We introduce →

multi-objective reinforcement learning pareto front iterated pareto referent optimisation convergence guarantees single-objective solvers

发现论文，激发创造

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。

Jun, 2014

学习帕累托集合用于多目标连续机器人控制

多目标控制问题中，我们提出了一种简单高效的多目标强化学习算法，通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集，实现了不同用户偏好下的多种优化策略网络的直接生成，并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。

Jun, 2024

基于深度多目标学习的可扩展 Pareto 前沿逼近

本研究提出一种直接在特征空间中根据偏好条件来调整神经网络的多目标优化方法，通过对解决方案进行惩罚来维持小角度到偏好向量的方法确保了良好分布的 Pareto 曲线，实验证明我们的 Pareto 前缘尽管计算速度显著更快，但也达到了业内最先进的质量，并展示了其可扩展性。

Mar, 2021

使用超体积最大化多目标学习预测帕累托前沿

提出了一种使用动态损失函数来进行多目标训练神经网络以逼近 Pareto 前沿的新方法，在三个多目标问题上的实验表明，本方法无需预先指定权衡向量即可以返回分布在不同权衡方案上的输出，并且与现有技术相比具有更多的优势，尤其是对于非对称 Pareto 前沿。

Feb, 2021

利用强化学习探究多目标 COVID-19 缓解政策的帕累托前沿

本研究使用深度多目标强化学习方法，以 Pareto Conditioned Networks (PCN) 算法为基础，尝试学习并平衡 COVID-19 流行病的多种防控策略，涉及病例、医院感染率、社会负担等多个指标，为疫情决策提供了重要洞见。

Apr, 2022

多任务学习中高效的连续 Pareto 探索

提出了一种新的、高效的方法，可以生成局部连续的 Pareto 集和 Pareto fronts，并将其应用于现代机器学习问题中。通过提出基于样本的稀疏线性系统，将多目标优化的理论结果扩展到现代机器学习问题中，并实现了局部 Pareto 集的分析。与现有算法相比，通过在各种多任务分类和回归问题上的应用，证明了我们的算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。

Jun, 2020

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022