基于人口统计学的重复石头剪刀布作为多智能体强化学习基准

Mar, 2023

基于人口统计学的重复石头剪刀布作为多智能体强化学习基准

Population-based Evaluation in Repeated Rock-Paper-Scissors as a Benchmark for Multiagent Reinforcement Learning

Marc Lanctot, John Schultz, Neil Burch, Max Olan Smith, Daniel Hennes...

TL;DR提出了一个基于 Rock, Paper, Scissors 游戏重复比赛及 43 个竞赛选手的基准测试，用于多智能体学习的基准测试，通过度量平均收益和可利用性来评估智能体的质量，并展示了多种机器学习方法的学习能力和推广能力，但最终输给了表现最好的机器人，为多智能体学习研究提供了机会。

Abstract

Progress in fields of machine learning and adversarial planning has benefited significantly from benchmark domains, from checkers and the

machine learning adversarial planning sequential decision-making multiagent learning benchmark

发现论文，激发创造

基于人群的深度强化学习在第一人称多人游戏中达到人类水平的表现

本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体，这些智能体仅使用 Q3A 视频游戏的像素和游戏得分作为输入，即使在富有挑战性的多智能体环境中互相协作和竞争，这些智能体也能够达到类人水平，并展现出人类般的行为表现。

Jul, 2018

基于模拟的强化学习智能体针对个性化零售促销的基准测试

本研究介绍了一个开放的基准测试平台，可以加速零售领域中人工智能代理的应用。通过对顾客购物行为进行综合模拟，对优化优惠券目标的强化学习（RL）代理进行了基准测试。该研究通过使用离线批量数据训练代理，以减少由于顾客购买事件稀疏性带来的学习困难。实验结果显示，相对于静态策略，上下文决策和深度强化学习方法在稀疏奖励分布上过拟合的问题上较少，表现出更好的性能。本研究提供了一个实用的框架，用于模拟优化整个零售顾客旅程的人工智能代理，并鼓励进一步发展零售人工智能系统的模拟工具。

May, 2024

统计临界点边缘深度强化学习

本文通过案例研究 Atari 100k 游戏数据集，强调在少量训练运行的深度强化学习算法中，为保证结果准确性和防止领域进展停滞，不可忽略数据的不确定性，提出用区间估计来评估强化学习算法的表现，并在常用数据集上分析了已有算法的性能，提出更为严谨的性能评估方法，并配有开源库 rliable。

Aug, 2021

RMBench：机器人操作器控制深度强化学习基准测试

本文介绍了 RMBench，这是一个用于机器人操作的基准测试，使用深度学习和强化学习算法，通过使用目标性能指标来比较算法的性能表现，研究发现，软 Actor-Critic 的表现最好，且数据增强技术有助于学习策略。

Oct, 2022

多智能体系统中的鲁棒性和泛化性能基准测试：神经互动多人在线游戏案例研究

第二届 Neural MMO 挑战赛的结果表明，在多智能体系统中的鲁棒性和泛化性能上取得了令人满意的成果，参与者通过使用标准强化学习方法结合领域特定的工程技术，训练出能够在与训练过程中未见过的对手下完成多任务目标的智能体团队。该挑战赛的设计和结果总结表明，作为学术界的一种强有力的方法，竞赛可以解决难题并为算法建立可靠的基准。我们将开源我们的基准测试，包括环境封装器、基准模型、可视化工具和选定的策略，以供进一步研究。

Aug, 2023

SmartPlay: LLM 为智能化代理测试基准

近期的大型语言模型（LLMs）展示了在智能代理和下一代自动化方面的巨大潜力，但目前缺乏一个系统性的基准来评估 LLMs 作为代理的能力。我们介绍了 SmartPlay：一个具有挑战性的基准和评估 LLMs 作为代理的方法论。SmartPlay 包括 6 个不同的游戏，包括石头剪刀布、汉诺塔、Minecraft。每个游戏都有独特的设定，提供最多 20 个评估设置和无限的环境变化。SmartPlay 中的每个游戏独特地挑战了智能 LLM 代理的 9 个重要能力的子集，包括处理对象的依赖关系、提前规划、空间推理、从历史中学习和理解随机性。每个游戏测试的能力集之间的区别使我们能够单独分析每个能力。SmartPlay 不仅是一个用于评估 LLM 代理整体性能的严格的测试平台，也是识别当前方法论中的空白的路线图。我们在 github.com/LLMsmartplay/SmartPlay 发布了我们的基准。

Oct, 2023

使用深度强化学习击败世界级的超级 Smash Bros

研究了在多人游戏环境中采用强化学习 (RL) 和深度学习的方法，成功训练了一个超越人类专业玩家的自适应智能体，成果在多人视频游戏环境中具有里程碑意义。

Feb, 2017

Agent57：超越 Atari 人类基准

本文提出了 Agent57，这是第一个在 57 个 Atari 游戏中超越人类水平的深度强化学习智能体，该智能体通过训练一个神经网络来参数化从探索性到完全利用性的一系列策略，并提出了一种自适应机制来选择优先考虑哪种策略。此外，我们还利用一种新颖的架构参数化形式，使得学习更加一致和稳定。

Mar, 2020

了解你的敌人：在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索

本研究探讨了将多人博弈转化为单人和双人博弈的技术，并通过使用启发式和自我对弈等方法，研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。

May, 2023

在真实世界机器人上对强化学习算法进行基准测试

通过在多个商业机器人上实施我们引入的多个强化学习任务，通过对其四种增强学习算法的学习性能进行测试并分析其对超参数的灵敏度，揭示出这些算法的实际应用性。我们发现现代学习算法对超参数非常敏感，为了获得最佳性能需要为每个任务重新调整参数。

Sep, 2018