BriefGPT.xyz
Ask
alpha
关键词
actor-critic paradigm
搜索结果 - 1
连续空间中的无限时间跨度均值场问题的深度强化学习
我们提出了一种强化学习算法,用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和 Langevin 动力学来表示均场分布,通过在线方式高效地更新,并通过迭代更新,收敛于给定均场问题的均衡点或最优点。该算法可以简单修改
→
PDF
10 months ago
Prev
Next