Sep, 2023

连续空间中的无限时间跨度均值场问题的深度强化学习

TL;DR我们提出了一种强化学习算法,用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布,通过在线方式高效地更新,并通过迭代更新,收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈,并在渐进无限时域框架中使用线性二次基准函数进行性能评估。