Pareto Conditioned Networks

Apr, 2022

Mathieu Reymond, Eugenio Bargiacchi, Ann Nowé

TL;DR本研究提出了一种名为 Pareto Conditioned Networks (PCN) 的方法，使用单一神经网络涵盖所有非支配策略，通过在特定的回报条件下进行训练，将优化问题转化为分类问题，实现对所需的 Pareto-efficient 解的策略恢复。

Abstract

In multi-objective optimization, learning all the policies that reach pareto-efficient solutions is an expensive process. The set of optimal policies can grow exponentially with the number of objectives, and reco

multi-objective optimization pareto-efficient solutions neural network classification problem policy recovery

发现论文，激发创造

神经多目标组合优化问题中的 Pareto 集学习

本文通过神经组合优化的思想，提出了多目标组合优化问题的学习方法，模型可直接生成逼近帕累托前沿的解，证明了该方法在多目标问题上的有效性。

Mar, 2022

使用超网络学习 Pareto 前沿

该研究采用 Pareto HyperNetworks（PHNs）实现了 Pareto-Front Learning（PFL），它通过一个超网络同时学习并输出 Pareto 前沿，并且相比于训练多个模型，该方法具有更高的运行时效率，并可以根据运行时的偏好选择特定模型。

Oct, 2020

利用强化学习探究多目标 COVID-19 缓解政策的帕累托前沿

本研究使用深度多目标强化学习方法，以 Pareto Conditioned Networks (PCN) 算法为基础，尝试学习并平衡 COVID-19 流行病的多种防控策略，涉及病例、医院感染率、社会负担等多个指标，为疫情决策提供了重要洞见。

Apr, 2022

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

组合优化的多目标指针网络

这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架，用于有效解决多目标组合优化问题，在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。

Apr, 2022

学习帕累托集合用于多目标连续机器人控制

多目标控制问题中，我们提出了一种简单高效的多目标强化学习算法，通过单独的超网络在高维策略参数空间中学习连续的 Pareto 解集，实现了不同用户偏好下的多种优化策略网络的直接生成，并在多个连续机器人控制问题上取得了最佳性能以及最少训练参数。

Jun, 2024

基于深度多目标学习的可扩展 Pareto 前沿逼近

本研究提出一种直接在特征空间中根据偏好条件来调整神经网络的多目标优化方法，通过对解决方案进行惩罚来维持小角度到偏好向量的方法确保了良好分布的 Pareto 曲线，实验证明我们的 Pareto 前缘尽管计算速度显著更快，但也达到了业内最先进的质量，并展示了其可扩展性。

Mar, 2021

通过集成深度神经网络实现最优功率控制

研究提出了一种基于深度神经网络的功率控制方法，使用多层全连接的神经网络模型有效解决了多用户干扰信道下的非凸优化问题，并在训练阶段利用无监督学习策略直接最大化输出节点的和，在标准对称多用户高斯干扰信道方面，通过多个神经网络的集成优化方法可以在计算复杂性大幅降低的基础上显著提高性能。

Jul, 2018

利用 Pareto 前沿近似网络（PA-Net）求解双目标 TSP

本文利用强化学习算法解决双目标 TSP 问题，提出 Pareto frontier approximation network（PA-Net）方法来生成多项式子集，最终应用于机器人导航覆盖规划任务中，可以优化 Pareto 前沿的表现并提高计算速度 4.5 倍。

Mar, 2022

扩散策略下的分布式帕累托优化

本文探讨如何通过协作和学习代理的网络以分布式方式解决多目标优化问题，提出了一种基于自适应扩散策略的分布式解决方案，并研究了代理人收敛于 Pareto 最优解以及其与不动点之间的关系，为金融领域中代理人网络的协作决策提供了一个应用实例。

Aug, 2012