走向可协商的强化学习：在帕累托最优顺序决策中转移优先级

Jan, 2017

走向可协商的强化学习：在帕累托最优顺序决策中转移优先级

Toward negotiable reinforcement learning: shifting priorities in Pareto optimal sequential decision-making

Andrew Critch

TL;DR本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题，提出了一种策略表述方式，利用递归形式来得出 Pareto 最优策略的特征，其中包括机器学习会利用玩家自身的信念来评估策略效果，并根据信念和机器输入条件的贴合程度，适当调整对每个玩家效用的相对优先级。

Abstract

Existing multi-objective reinforcement learning (MORL) algorithms do not account for objectives that arise from players with differing beliefs. Concretely, consider two players with different beliefs and utility functions who may cooperate to build a machine that takes actions on their

multi-objective reinforcement learning players' beliefs pareto optimality policy prioritization sequential decision-making

发现论文，激发创造

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

多目标强化学习中随机环境和局部决策问题的解决

本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Nov, 2022

基于效用的强化学习：统一单目标与多目标强化学习

通过引入基于效用的范式，将多目标强化学习的研究扩展到单目标强化学习领域，探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处，并研究了采用基于效用的方法所带来的算法性能影响。

Feb, 2024

基于价值的多目标强化学习在随机环境中的实证研究

本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究，考察了算法的变种以及奖励工程方法，并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。

Jan, 2024

基于价值的多目标强化学习中的价值函数干扰和贪婪动作选择

多目标强化学习算法扩展了传统的强化学习方法以解决存在多个冲突目标的问题，通过向量值奖励进行表示。我们在此论文中展示了，如果用户的效用函数将各向量值映射到相似的效用级别，这可能导致代理学到的值函数受到干扰，从而收敛到次优策略。尽管在确定贪婪动作时避免使用随机打破关系，可以缓解由值函数干扰引起的问题，但并不能完全克服这个问题。

Feb, 2024

基于 UCB 驱动的多目标增强学习的效用函数搜索

基于多目标强化学习的分解方法，通过使用多个效用函数将多目标问题分解为单目标问题，采用上限置信区间的方法在学习过程的不同阶段高效搜索最有前景的权重向量，以最大化 resulting Pareto front 的超体积。

May, 2024

MORAL：通过多目标强化主动学习将人工智能与人类规范对齐

我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法，通过维护标量化权重的分布，交互式地调整深度强化学习代理向各种偏好的方向发展，从而将社会规范的不同展示组合成帕累托最优策略，并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证，并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步，弥合了当前奖励学习和机器伦理文献之间的差距。

Dec, 2021