MMOct, 2021

在跨时间社会困境任务中平衡探索和利用,提高合作

TL;DR通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。