Nov, 2022

多目标强化学习中的福利与公正

TL;DR本研究探讨了如何在多个目标之间实现公平的多目标强化学习,其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法,通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法,以学习为非线性福利函数进行优化。我们的算法可以被证明收敛,并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比,在 Nash 社会福利目标方面,我们的方法表现出更好的效果。