ICMLJul, 2020

去中心化强化学习:通过本地经济交易进行全局决策制定

TL;DR该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。