Jun, 2023

基于偏好的强化学习中的公正性

TL;DR本文研究多目标偏好强化学习中的公平性问题,并提出了一种新的公平性偏好强化学习方法 FPbRL,通过最大化广义基尼福利函数,学习与多个目标相关的向量奖励函数,并通过实验研究表明,该方法能够同时实现学习有效和公平的策略。