Nov, 2023

多智能体强化学习中的善良

TL;DR人们在决策中常常考虑公平,并通过对待回报以回应行为的友善。本研究提出了一种称为KindMARL的方法,通过对环境行为的反事实推理来衡量代理人的意图,并将其应用于多智能体强化学习中。实验结果表明,基于KindMARL的训练方法使得代理人在不同环境中获得了更多的总奖励。