Jul, 2022

面向分散网络系统的可扩展基于模型的策略优化

TL;DR本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。