具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

AAAIJun, 2014

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

Multi-objective Reinforcement Learning with Continuous Pareto Frontier Approximation Supplementary Material

Matteo Pirotta, Simone Parisi, Marcello Restelli

TL;DR使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。

Abstract

This document contains supplementary material for the paper "Multi-objective Reinforcement Learning with continuous pareto frontier approximation", published at the Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI-15). The paper is about learning a continuous approximation

multi-objective reinforcement learning continuous pareto frontier approximation policy-based approach gradient information markov decision problems

发现论文，激发创造

多任务学习中高效的连续 Pareto 探索

提出了一种新的、高效的方法，可以生成局部连续的 Pareto 集和 Pareto fronts，并将其应用于现代机器学习问题中。通过提出基于样本的稀疏线性系统，将多目标优化的理论结果扩展到现代机器学习问题中，并实现了局部 Pareto 集的分析。与现有算法相比，通过在各种多任务分类和回归问题上的应用，证明了我们的算法在平衡权衡、有效地找到更多的不同权衡解以及迎合百万级参数任务的能力。

Jun, 2020

学习帕累托集合用于多目标连续机器人控制

多目标控制问题中，我们提出了一种简单高效的多目标强化学习算法，通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集，实现了不同用户偏好下的多种优化策略网络的直接生成，并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。

Jun, 2024

分而治之：利用多目标强化学习可证明揭示帕累托前沿

多目标强化学习中的一个重要挑战是在不同偏好下获得达到最优性能的政策帕累托前沿，本文引入了迭代帕累托参考优化（IPRO），一种将寻找帕累托前沿的任务分解成一系列单目标问题的原则性算法，以此实现收敛性保证并在每一步给出到未发现帕累托最优解的距离上限，实证评估表明 IPRO 与需要额外领域知识的方法相当甚至优于其，通过利用问题特定的单目标求解器，本方法也在路径规划和优化等领域具有潜力。

Feb, 2024

基于深度多目标学习的可扩展 Pareto 前沿逼近

本研究提出一种直接在特征空间中根据偏好条件来调整神经网络的多目标优化方法，通过对解决方案进行惩罚来维持小角度到偏好向量的方法确保了良好分布的 Pareto 曲线，实验证明我们的 Pareto 前缘尽管计算速度显著更快，但也达到了业内最先进的质量，并展示了其可扩展性。

Mar, 2021

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

使用超体积最大化多目标学习预测帕累托前沿

提出了一种使用动态损失函数来进行多目标训练神经网络以逼近 Pareto 前沿的新方法，在三个多目标问题上的实验表明，本方法无需预先指定权衡向量即可以返回分布在不同权衡方案上的输出，并且与现有技术相比具有更多的优势，尤其是对于非对称 Pareto 前沿。

Feb, 2021

昂贵多目标优化的 Pareto 集学习

本文提出了一种基于学习的方法，将分解式多目标优化算法 (MOEA/D) 从有限种群推广到模型，以近似整个 Pareto 集，为决策者提供灵活的决策，并展示实验结果。

Oct, 2022

神经多目标组合优化问题中的 Pareto 集学习

本文通过神经组合优化的思想，提出了多目标组合优化问题的学习方法，模型可直接生成逼近帕累托前沿的解，证明了该方法在多目标问题上的有效性。

Mar, 2022

多目标马尔可夫决策过程中 Lorenz - 最优解的近似

本篇论文研究了多目标马尔可夫决策过程中的公平优化问题，并介绍了一种高效逼近无限时段，折扣多目标马尔可夫决策过程中 Lorenz 非支配解的方法。

Sep, 2013

带有函数逼近的可证明高效合作多智能体强化学习

本文介绍了采用价值迭代和信息交流来解决固定通信预算下，多智能体强化学习问题，并证明了在有限信息交流的异构合作场景下，可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域。

Mar, 2021