MMOct, 2021
在跨时间社会困境任务中平衡探索和利用,提高合作
Improved cooperation by balancing exploration and exploitation in intertemporal social dilemma tasks
Zhenbo Cheng, Xingguang Liu, Leilei Zhang, Hangcheng Meng, Qin Li...
TL;DR通过多智能体强化学习,将学习速率纳入协作策略以平衡探索和开发性,实现集体行为的协调。在决策任务中,简单的策略有助于提高相对集体的回报,并且异构环境下的强化学习代理人较同质环境更具协调性。