May, 2022

使用分解增强的 MDP 多智能体学习双曲偏微分方程数值方法

TL;DR本文将学习数值方法转化为了分解的 Dec-MDP 问题,展示了不同的奖励公式导致强化学习或行为克隆。RL 算法实现了一个同质化策略,使得多个智能体之间可以相互合作完成任务,并推广到不同的 PDEs 数值求解问题。