多目标强化学习元学习

Nov, 2018

Meta-Learning for Multi-objective Reinforcement Learning

Xi Chen, Ali Ghadirzadeh, Mårten Björkman, Patric Jensfelt

TL;DR本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Abstract

multi-objective reinforcement learning (MORL) is the generalization of standard reinforcement learning (RL) approaches to solve sequential decision making problems that consist of several, possibly conflicting, objectives. Generally, in such formulations, there is no single optimal pol

multi-objective reinforcement learning sequential decision making pareto optimal solutions meta-learning continuous control problems

发现论文，激发创造

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标强化学习中随机环境和局部决策问题的解决

本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Nov, 2022

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

gTLO：通用的、非线性的多目标深度强化学习方法

本研究提出了一种旨在将非线性 MORL 与广义 MORL 的优势相结合的新方法 —— 广义阈值词典排序 (gTLO)，并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中，介绍了该算法的深度强化学习实现，并取得了令人鼓舞的结果。

Apr, 2022

多目标强化学习的超参数优化

对多目标强化学习中超参数优化的挑战进行了初步调查，并提出了一种系统性方法来解决这个问题，该方法能够显著提高多目标强化学习代理的性能，并鉴定了未来的研究机会。

Oct, 2023

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

基于效用的强化学习：统一单目标与多目标强化学习

通过引入基于效用的范式，将多目标强化学习的研究扩展到单目标强化学习领域，探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处，并研究了采用基于效用的方法所带来的算法性能影响。

Feb, 2024

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021