学习帕累托集合用于多目标连续机器人控制

Jun, 2024

学习帕累托集合用于多目标连续机器人控制

Learning Pareto Set for Multi-Objective Continuous Robot Control

Tianye Shu, Ke Shang, Cheng Gong, Yang Nan, Hisao Ishibuchi

TL;DR多目标控制问题中，我们提出了一种简单高效的多目标强化学习算法，通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集，实现了不同用户偏好下的多种优化策略网络的直接生成，并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。

Abstract

For a control problem with multiple conflicting objectives, there exists a set of pareto-optimal policies called the pareto set instead of a single optimal policy. When a →

multi-objective control problem pareto set multi-objective reinforcement learning high-dimensional policy parameter space pareto-optimal policies

发现论文，激发创造

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。

Jun, 2014

多任务学习中高效的连续 Pareto 探索

提出了一种新的、高效的方法，可以生成局部连续的 Pareto 集和 Pareto fronts，并将其应用于现代机器学习问题中。通过提出基于样本的稀疏线性系统，将多目标优化的理论结果扩展到现代机器学习问题中，并实现了局部 Pareto 集的分析。与现有算法相比，通过在各种多任务分类和回归问题上的应用，证明了我们的算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。

Jun, 2020

神经多目标组合优化问题中的 Pareto 集学习

本文通过神经组合优化的思想，提出了多目标组合优化问题的学习方法，模型可直接生成逼近帕累托前沿的解，证明了该方法在多目标问题上的有效性。

Mar, 2022

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

走向可协商的强化学习：在帕累托最优顺序决策中转移优先级

本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题，提出了一种策略表述方式，利用递归形式来得出 Pareto 最优策略的特征，其中包括机器学习会利用玩家自身的信念来评估策略效果，并根据信念和机器输入条件的贴合程度，适当调整对每个玩家效用的相对优先级。

Jan, 2017

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

昂贵多目标优化的 Pareto 集学习

本文提出了一种基于学习的方法，将分解式多目标优化算法 (MOEA/D) 从有限种群推广到模型，以近似整个 Pareto 集，为决策者提供灵活的决策，并展示实验结果。

Oct, 2022