多目标强化学习中随机环境和局部决策问题的解决

Nov, 2022

多目标强化学习中随机环境和局部决策问题的解决

Addressing the issue of stochastic environments and local decision-making in multi-objective reinforcement learning

Kewen Ding

TL;DR本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素，并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能，全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能，但仍然存在着噪声 Q 值估计问题的影响。

Abstract

multi-objective reinforcement learning (MORL) is a relatively new field which builds on conventional Reinforcement Learning (RL) to solve multi-objective problems. One of common algorithm is to extend scalar value q-lea

multi-objective reinforcement learning q-learning stochastic environments markov decision process optimal policy

发现论文，激发创造

基于价值的多目标强化学习在随机环境中的实证研究

本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究，考察了算法的变种以及奖励工程方法，并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。

Jan, 2024

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

基于价值的多目标强化学习中的价值函数干扰和贪婪动作选择

多目标强化学习算法扩展了传统的强化学习方法以解决存在多个冲突目标的问题，通过向量值奖励进行表示。我们在此论文中展示了，如果用户的效用函数将各向量值映射到相似的效用级别，这可能导致代理学到的值函数受到干扰，从而收敛到次优策略。尽管在确定贪婪动作时避免使用随机打破关系，可以缓解由值函数干扰引起的问题，但并不能完全克服这个问题。

Feb, 2024

PD-MORL: 基于偏好的多目标强化学习算法

本研究提出了一种新型的多目标强化学习算法 PD-MORL，该算法利用偏好作为指导来更新网络参数，并采用一种新的并行化方法来提高采样效率，可覆盖整个偏好空间，适用于连续机器人任务的可伸缩性更强，相较于以往方法具有更高曲线下面积并且可训练参数量更少。

Aug, 2022

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

在 URLLC 启用的车载网络中使用包络更新的广义多目标强化学习

我们开发了一种新的多目标强化学习（MORL）框架，以在传统的次 6GHz 频谱和太赫兹频率上运行的多频段车联网中共同优化无线网络选择和自主驾驶策略。该框架旨在通过控制车辆的运动动态（即速度和加速度）来最大化交通流量，最小化碰撞，并增强超可靠、低延迟的通信，同时最小化切换。我们将该问题视为多目标马尔科夫决策过程（MOMDP）并为冲突目标的预设和未知偏好开发解决方案。具体地，我们首先开发了基于深度 Q 网络和双深度 Q 网络的解决方案，通过使用预设偏好对运输和通信奖励进行标量化处理。然后，我们开发了一种新颖的信封 MORL 解决方案，该解决方案能够为代理器处理具有未知偏好的多目标提出策略。虽然这种方法减少了对标量奖励的依赖，但在不同的偏好下策略的有效性仍然是一个挑战。为了解决这个问题，我们应用了一种广义版本的贝尔曼方程，并优化多目标 Q 值的凸包来学习一个统一的参数表示，能够在所有可能的偏好配置下生成最优策略。在初始学习阶段之后，我们的代理器可以根据任何指定的偏好执行最优策略，或者从最少的数据样本中推断出偏好。数值结果验证了基于信封的 MORL 解决方案的有效性，并展示了车辆运动动态、切换和通信数据速率之间的相关性的有趣见解。所提出的策略使自动驾驶车辆能够采用安全驾驶行为，并具有改善的连接性。

May, 2024

基于效用的强化学习：统一单目标与多目标强化学习

通过引入基于效用的范式，将多目标强化学习的研究扩展到单目标强化学习领域，探讨了多策略学习、风险感知强化学习、折扣率以及安全强化学习等方面带来的潜在益处，并研究了采用基于效用的方法所带来的算法性能影响。

Feb, 2024

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023