Oct, 2024

凸马尔可夫博弈:多智能体学习中的公平性、模仿和创造性框架

TL;DR本研究针对多智能体学习中非线性偏好的问题,提出了凸马尔可夫博弈的框架,该框架允许对状态占用度量的广泛凸偏好进行处理。实验结果表明,该算法在囚徒困境中提供了高效的公平解,同时在模仿人类决策时能显著提高单个参与者的效用。