Jan, 2024

均场博弈中最大因果熵逆向强化学习

TL;DR我们介绍了关于离散时间平均场博弈下最大因果熵逆强化学习问题。我们通过综述确定性和随机马尔科夫决策过程在有限和无限时域情景下的最大熵逆强化学习问题,提出了最大因果熵逆强化学习问题,这是一个非凸优化问题。我们使用线性规划的方式对问题进行了重构,建立了一个梯度下降算法来计算最优解,并通过将平均场博弈问题转化为广义纳什均衡问题来提出一种新算法。该算法可用于计算正向强化学习问题的平均场均衡,并应用于数值示例。我们注意到,该算法也适用于一般的平均场均衡计算。