Feb, 2024

受限马尔可夫潜在博弈中的独立学习

TL;DR本文介绍了一个针对约束马尔可夫博弈的独立策略梯度算法,利用近端点更新和正则化约束集来求解近似的约束纳什均衡,具备独立实现、分布式更新和收敛性保证的特点。