多目标策略优化的分布式视角

May, 2020

A Distributional View on Multi-Objective Policy Optimization

Abbas Abdolmaleki, Sandy H. Huang, Leonard Hasenclever, Michael Neunert, H. Francis Song...

TL;DR本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

Abstract

Many real-world problems require trading off multiple competing objectives. However, these objectives are often in different units and/or scales, which can make it challenging for practitioners to express numerical preferences over objectives in their native units. In this paper we pro

multi-objective reinforcement learning preferences action distribution parametric policy nondominated solutions

发现论文，激发创造

多目标强化学习与规划实用指南

本文为那些希望将多目标方法引入其研究的已经熟悉单目标强化学习和计划方法的研究人员以及在实践中遇到多目标决策问题的从业人员提供了一个解决复杂问题的指南，阐述了影响所需解决方案性质的因素，并通过示例说明了这些因素如何影响复杂问题的多目标决策系统的设计。

Mar, 2021

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

分布式多目标决策制定

我们提出了一种基于分布的支配准则来探讨有效决策支持的方法，并介绍了一种称为分布无支配集的概念，其中包括了帕累托前沿被忽略的最佳决策。此外，我们还提出了凸分布无支配集，并演示了算法的可行性和有效性，为现实世界问题的决策支持提供了有价值的新方法。

May, 2023

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标马尔可夫决策过程中的内在动机分层策略学习

通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集，以解决多目标马尔科夫决策过程，从而克服了在非稳态环境中无法泛化的问题。实验证明，该方法在动态机器人环境中明显优于现有的多目标强化学习方法。

Aug, 2023

多目标推荐的多元策略学习

多目标权衡时，推荐系统中的标量化方法决定最终用于排序的加权平均奖励信号，本研究对该方法进行了扩展以优化长期用户保留或增长的综合奖励，使用连续多元动作空间的策略学习方法，并提出了修正措施，通过模拟、离线和在线实验验证了方法的有效性。

May, 2024

安全平衡：一种用于约束多目标强化学习的框架

在涉及安全关键系统的众多强化学习问题中，平衡多个目标并同时满足严格的安全约束是一个关键挑战。为解决这个问题，我们提出了一个基于原始的框架，通过多目标学习和约束遵从性之间的策略优化来协调。我们的方法采用了一种新颖的自然策略梯度操作方法，用于优化多个强化学习目标，并克服不同任务之间冲突梯度，因为简单的加权平均梯度方向可能不利于特定任务的性能，原因在于不同任务目标的梯度不对齐。当出现硬约束违规时，我们的算法介入纠正策略以最小化违规。我们在表格设置中建立了理论收敛和约束违规保证。在具有挑战性的安全多目标强化学习任务上，我们提出的方法在实证上也优于先前最先进的方法。

May, 2024

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022

一种针对非平稳环境下多目标强化学习的稳定策略引导算法

提出了一种能够在非稳态环境中以在线方式稳健演化一个凸覆盖策略集的新型多目标强化学习算法，并在稳态和非稳态环境中与现有算法进行比较，结果表明该算法在非稳态环境中显著优于现有算法，并在稳态环境中达到可比较的结果。

Aug, 2023

强化学习中的多目标策略优化政策组合

通过利用相关的现有教师策略，我们使强化学习代理能够学习成功的行为策略，并在多目标策略优化设置中将教师策略引入作为目标之一，展示了教师策略能够加速学习的方式，尤其是在缺乏塑形奖励之情况下。

Aug, 2023