示范引导的多目标强化学习

Apr, 2024

Demonstration Guided Multi-Objective Reinforcement Learning

Junlin Lu, Patrick Mannion, Karl Mason

TL;DR利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Abstract

multi-objective reinforcement learning (MORL) is increasingly relevant due to its resemblance to real-world scenarios requiring trade-offs between multiple objectives. Catering to diverse user preferences, traditional reinforcement learning faces amplified challenges in MORL. To addres

multi-objective reinforcement learning demonstration-guided corner weight support self-evolving mechanism sample complexity

发现论文，激发创造

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

约束多目标强化学习的尺度不变梯度聚集

多目标强化学习中，为了满足预定义的约束条件，我们提出了一种新的算法 CoMOGA，将原始的约束优化问题转化为带有附加约束的优化问题，并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估，该方法在满足约束和保持目标尺度不变方面优于其他基线模型。

Mar, 2024

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

多目标强化学习中随机环境和局部决策问题的解决

本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Nov, 2022

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线 MORL 设置，介绍了专门针对离线设置的数据集 D4MORL，提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了 Pareto-front 的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021

基于分解的多目标强化学习：分类与框架

基于分解的多目标强化学习（MORL/D）引入了一个全面的分类体系，提供了一个有结构的基础，用于对现有和潜在 MORL 作品进行分类。同时，引入的框架展示了其灵活性，并通过各种配置的实现来证明其多功能性。通过提出这个分类体系和框架，本文为 MORL 提供了综合的视角和统一的词汇，不仅有助于算法贡献的识别，还为 MORL 领域的新研究方向奠定了基础，推动了该领域的持续发展。

Nov, 2023