多目标深度强化学习

Oct, 2016

Multi-Objective Deep Reinforcement Learning

Hossam Mossalam, Yannis M. Assael, Diederik M. Roijers, Shimon Whiteson

TL;DR文章提出 DOL 方法，通过使用高维输入的特征，计算包含所有潜在最优解的凸组合集，解决了高维多目标决策问题，并提供了一个包含两个实验的基准测试平台用于深度多目标强化学习。

Abstract

We propose deep optimistic linear support learning (DOL) to solve high-dimensional multi-objective decision problems where the relative importances of the objectives are not known a priori. Using features from th

deep optimistic linear support learning multi-objective decision problems deep reinforcement learning convex coverage set testbed

发现论文，激发创造

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

gTLO：通用的、非线性的多目标深度强化学习方法

本研究提出了一种旨在将非线性 MORL 与广义 MORL 的优势相结合的新方法 —— 广义阈值词典排序 (gTLO)，并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中，介绍了该算法的深度强化学习实现，并取得了令人鼓舞的结果。

Apr, 2022

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多目标优化的深度强化学习

本文提出了一种通过深度强化学习和神经网络实现的多目标优化问题解决方案，其中采用分解思想将问题分解为一组标量优化子问题并针对每个子问题建立神经网络模型。通过邻域参数传递策略和 DRL 训练算法共同优化所有子问题的模型参数，并利用训练好的神经网络模型直接得到帕累托最优解。其中将多目标旅行商问题作为研究对象，使用 DRL-MOA 方法建模子问题为指针网络并与其他基准方法进行对比，在实验中表现出了较强的泛化能力和快速解决速度。

Jun, 2019

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

多目标深度强化学习中的动态权重

本文提出了一种多目标 Q 网络，可以处理动态权重下的多目标强化学习问题，并引入了多样性经验回放方法以应对动态权重下的非稳定性问题。实验结果表明，该方法在权重变化场景和问题领域上的性能优于现有的算法。

Sep, 2018

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022