多目标优化的深度强化学习

Jun, 2019

Deep Reinforcement Learning for Multi-objective Optimization

Kaiwen Li, Tao Zhang, Rui Wang

TL;DR本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Abstract

This study proposes an end-to-end framework for solving multi-objective optimization problems (MOPs) using deep reinforcement learning (DRL), that we call DRL-MOA. The idea of decomposition is adopted to decompose the MOP into a set of scalar optimization subproblems. Then each subprob

multi-objective optimization deep reinforcement learning neural network pareto optimal solutions travelling salesman problem

发现论文，激发创造

组合优化的多目标指针网络

这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架，用于有效解决多目标组合优化问题，在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。

Apr, 2022

神经网络多目标贝叶斯优化的增强随机搜索

本文提出一种新的基于强化学习的方法来优化在小型设备上部署的深度神经网络，以便在保持预测精度的同时最小化内存占用和计算复杂度。实验结果表明，该方法在不同数据集和架构上均优于现有的多目标贝叶斯优化方法。

May, 2023

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

深度强化学习辅助运算符选择的约束多目标优化

本文提出了一个使用深度强化学习辅助的在线运算符选择框架，该框架能够提高约束多目标优化演化算法的性能。通过根据当前状态自适应选择最大化总体改善的运算符，改进了算法性能，并在 42 个基准问题上对四种常用的约束多目标优化演化算法进行了评估，实验结果显示这种方法显著提高了 CMOEA 的性能。

Jan, 2024

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

一个更多：单一网络中的多样观点用于高效深度强化学习

使用深度强化学习和神经网络对值函数和策略函数进行逼近在各个领域都取得了显著的成果，但是这种方法仍然面临低采样效率和过拟合的挑战，本文介绍了一种名为 OMNet 的新学习范式，在单个网络中利用多个子网络高效地提供多样化输出，我们提供了 OMNet 的初始化、训练和采样的系统流程，它可以轻松应用于各种深度强化学习算法，并且在 MuJoCo 基准测试中的综合评估结果突出了 OMNet 在性能和计算成本之间找到有效平衡的能力。

Oct, 2023

基于分解的多目标强化学习：分类与框架

基于分解的多目标强化学习（MORL/D）引入了一个全面的分类体系，提供了一个有结构的基础，用于对现有和潜在 MORL 作品进行分类。同时，引入的框架展示了其灵活性，并通过各种配置的实现来证明其多功能性。通过提出这个分类体系和框架，本文为 MORL 提供了综合的视角和统一的词汇，不仅有助于算法贡献的识别，还为 MORL 领域的新研究方向奠定了基础，推动了该领域的持续发展。

Nov, 2023

多目标深度强化学习

文章提出 DOL 方法，通过使用高维输入的特征，计算包含所有潜在最优解的凸组合集，解决了高维多目标决策问题，并提供了一个包含两个实验的基准测试平台用于深度多目标强化学习。

Oct, 2016