介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步数的最优解,同时单调地提高其部分解决方案的质量。
Jan, 2023
本研究提出了一种新型的多目标强化学习算法 PD-MORL,该算法利用偏好作为指导来更新网络参数,并采用一种新的并行化方法来提高采样效率,可覆盖整个偏好空间,适用于连续机器人任务的可伸缩性更强,相较于以往方法具有更高曲线下面积并且可训练参数量更少。
Aug, 2022
本文介绍了将多目标强化学习应用到连续控制问题中,通过元学习的方法探索可能的最优策略,以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。
Nov, 2018
利用先前示范、角重支持、自我演进机制和样本复杂度,我们引入了一种新型方法,即示范引导的多目标强化学习(DG-MORL),以解决多目标强化学习中从头开始训练策略的困难,并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性,同时提供了算法的样本复杂度上界。
Apr, 2024
本研究提出了一种旨在将非线性 MORL 与广义 MORL 的优势相结合的新方法 —— 广义阈值词典排序 (gTLO),并在非线性 MORL 的标准基准和制造过程控制领域的实际应用中,介绍了该算法的深度强化学习实现,并取得了令人鼓舞的结果。
Apr, 2022
本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下提供了 Pareto-front 的良好近似,可以通过超体积和稀疏度度量来衡量。
Apr, 2023
本研究旨在探讨多目标强化学习算法在具有随机状态转换的环境中学习最优策略的影响因素,并通过实证评估比较了不同的算法变种。研究结果表明设计良好的奖励信号可以改善性能,全局统计的 MORL Q-learning 算法也显示出比基准算法更好的性能,但仍然存在着噪声 Q 值估计问题的影响。
Nov, 2022
本文研究多目标强化学习算法在博弈中不同信念玩家的目标问题,提出了一种策略表述方式,利用递归形式来得出 Pareto 最优策略的特征,其中包括机器学习会利用玩家自身的信念来评估策略效果,并根据信念和机器输入条件的贴合程度,适当调整对每个玩家效用的相对优先级。
Jan, 2017
多目标强化学习中,为了满足预定义的约束条件,我们提出了一种新的算法 CoMOGA,将原始的约束优化问题转化为带有附加约束的优化问题,并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估,该方法在满足约束和保持目标尺度不变方面优于其他基线模型。
Mar, 2024
本文致力于利用仅离线轨迹数据训练一个多目标强化学习策略。我们将单目标离线强化学习问题中广泛采用的离线策略正则化方法扩展到多目标设置,以达到上述目标。然而,在离线多目标强化学习设置中,存在新的挑战,即偏好不一致演示问题。我们提出了两个解决方案:1)通过近似行为偏好来过滤偏好不一致的演示,和 2)采用具有高策略表达能力的正则化技术。此外,我们将偏好条件化的标量化更新方法整合到策略正则化的离线强化学习中,以便使用单个策略网络同时学习一组策略,从而减少训练大量不同偏好的个体策略所带来的计算成本。最后,我们引入了正则化权重适应机制,在部署过程中动态确定任意目标偏好的适当正则化权重。各种多目标数据集上的实证结果展示了我们的方法在解决离线多目标强化学习问题方面的能力。
Jan, 2024