Jan, 2023

使用线性函数逼近的多智能体拥塞成本最小化

TL;DR该论文提出了一种多智能体强化学习算法以实现分散式的最小化拥塞成本,该算法使用线性函数逼近过渡概率和全局成本函数,通过一个多智能体扩展价值迭代子例程维护全局状态动作值的估计,并通过动态通信网络共享成本函数参数以保护隐私。