Mar, 2024

约束多目标强化学习的尺度不变梯度聚集

TL;DR多目标强化学习中,为了满足预定义的约束条件,我们提出了一种新的算法 CoMOGA,将原始的约束优化问题转化为带有附加约束的优化问题,并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估,该方法在满足约束和保持目标尺度不变方面优于其他基线模型。