诚实自博弈
本文介绍了一种可推广的终端到终端学习方法,结合了虚构自游戏和深度强化学习来学习近似 Nash 均衡。在 Leduc 扑克和真实规模的 Limit Texas Holdem 游戏中,NFSP 相比于传统强化学习方法,接近甚至超过了基于领域知识经验的超级算法。
Mar, 2016
合作行为在人类社会和自然界中普遍存在,本研究使用强化学习中的 SARSA 算法来研究进化博弈论,评估其对合作率的影响。
Jun, 2024
我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。 一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系,从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法,另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较,展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性,展示了在处理收敛性和可靠的推广问题时,动力系统视角对多智能体强化学习的普适性。
May, 2024
研究自博弈算法在 Markov 游戏中的应用,提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法,并证明了其在策略最佳化中的有效性和高样本利用率。
Feb, 2020
该研究介绍了 Off-FSP,这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互,学习最佳响应以及应用离线自我对弈学习框架,并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE),在部分覆盖的真实世界数据集中,我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。
Feb, 2024
本文提出了一种基于 Self Other-Modeling 的学习方法,用于解决多智能体强化学习中的信息不完全问题,并可用于解决合作和敌对情境下的任务。
Feb, 2018
我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为,显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略,从而在代理之间的利益冲突程度给出的前提下,按照 Nash 均衡预测发生最大程度的通信。我们发现这个结论在超参数和游戏的替代规范下是稳健的。我们讨论了对信息传输游戏中均衡选择理论、计算机科学中算法间新兴通信的作用以及市场中由人工智能代理人组成的勾结经济的影响。
Oct, 2023
本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark,HSP 方法成功获得了更高的协同收益,并被受试者评选为最有帮助的策略。
Feb, 2023