Mar, 2023
基于人口统计学的重复石头剪刀布作为多智能体强化学习基准
Population-based Evaluation in Repeated Rock-Paper-Scissors as a Benchmark for Multiagent Reinforcement Learning
Marc Lanctot, John Schultz, Neil Burch, Max Olan Smith, Daniel Hennes...
TL;DR提出了一个基于 Rock, Paper, Scissors 游戏重复比赛及 43 个竞赛选手的基准测试,用于多智能体学习的基准测试,通过度量平均收益和可利用性来评估智能体的质量,并展示了多种机器学习方法的学习能力和推广能力,但最终输给了表现最好的机器人,为多智能体学习研究提供了机会。