Feb, 2017

序贯社交困境中的多智体强化学习

TL;DR本文提出了顺序社会困境概念,以两种引入的马尔可夫博弈为例,分析了多个自利的独立学习智能体使用自己的 Deep Q-Networks 所学习的策略,同时展示了竞争如何导致冲突并阐明了真实世界社会困境的顺序性质如何影响合作。