- LLMArena: 评估大型语言模型在动态多智能体环境中的能力
近期大型语言模型(LLM)在实现具备人类级智能的自主代理方面显示出了潜力,然而现有用于评估 LLM 代理的基准要么使用静态数据集,可能导致数据泄露,要么仅关注单一代理情景,忽略多代理交互的复杂性。我们引入了 LLMArena,这是一个新颖且 - 偏离观测的敌对行为学习模型
本文介绍了一种基于图神经网络和互信息的敌手建模与追踪方法,即 PANDEMONIUM,该方法在两个大规模追逐 / 逃避领域表现优异,未来状态预测平均对数似然比基线提高了 31.68%。
- 了解你的敌人:在 Pommerman 中使用对手模型研究 Monte-Carlo 树搜索
本研究探讨了将多人博弈转化为单人和双人博弈的技术,并通过使用启发式和自我对弈等方法,研究了对手建模的现象。同时在监督学习和强化学习环境下展示了多人搜索变异体的有效性。
- 多人不完美信息博弈中的贝叶斯对手建模
本研究探讨了面对多个对手的策略交互游戏,使用对手建模和观察对手策略等技术,超越纯理性策略的表现。
- 对手建模中的双重深度 Q 学习
本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略,并通过对手建模架构识别不同的对手策略模式,最终在两个环境下分析了我们的模型,研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。
- 使用虚拟对手模型进行决策
提出了一种基于分布式 Actor-Critic 算法的多智能体虚拟对手建模方法,通过构建虚拟模型来模拟未观察到对手的行为,使用本地可得信息实现虚拟对手模型的训练和优化。实验证明该方法能有效准确地模拟对手行为,相较于基线方法具有更快的收敛速度 - 多智能体强化学习中带有语言基础的实体分割
本文提出了一种新的 entity-divider(EnDi)的多智能体强化学习的语言基础的框架,可用于在多实体级别上独立地学习子目标划分,并通过对手建模来规范化子目标划分以避免子目标冲突和促进协调策略,具有较强的泛化能力和优越性能。
- 具有对手学习意识的近端学习
本文提出 Learning With Opponent-Learning Awareness (LOLA) 的一个改进算法 —— 造假 LOLA(proximal LOLA,POLA),并证明其可在部分竞争性环境下更可靠地实现基于互惠的合作 - ACL通过关联数据适应进行谈判对话中的对手建模
本研究提出了一种 for identifying the priorities of the opponent in multi-issue negotiation from partial dialogues,通过关键词识别和数据适应的方 - DouZero+: 对手建模和教练引导学习强化斗地主 AI
本论文介绍了在中国十分流行的卡牌游戏斗地主中引入强化学习以及对抗性网络,旨在提高斗地主人工智能的表现,并将系统实现了状态的全面探索,从而在斗地主 Botzone 排行榜上获得了最高排名。
- 基于模型的对手建模
本文提出基于模型的对手建模(MBOM)方法,通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手,在固定策略、初学者和推理者等多重对手场景中,MBOM 的适应性比现有方法更优。
- AAAI多智能体系统中对手建模的变分自编码器
本研究使用变分自编码器对多智能体系统中特定行为进行对手建模,以及提出了一种使用局部信息来识别对手模型的方法,结果表明我们的对手建模方法在强化学习任务中取得了相当好的结果。
- 通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂 - 带最大熵目标的正则对手模型
本研究在多智能体环境下,重新定义二元随机变量 $o$ 并将多智能体强化学习形式化为概率推理。我们提出了一种名为 ROMMEO 的正则对手模型最大熵目标的变分下界,并从中展示了一种对手建模的新方法,理论和实证地证明其在协作游戏中可以提高训练智 - 一般化递归推理模型下多智体互动中的有界理性建模
本文提出了一种广义的递归推理(GR2)框架,旨在建模具有不同分层次理性的代理,其架构能够使代理表现出不同层次的 “思考” 能力,使得上层代理可以更好地应对各种不那么复杂的学习者。我们在理论和实验方面都有贡献,首先在理论方面,通过概率图模型设 - ICLR多智能体强化学习的概率递归推理
本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架,该框架可以用于建模智体对手的行为,提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明,关于智体对手信念的推理,是智体强化学习中一个重要的方向。
- AAAI应对策略限制的大规模扩展博弈求解
研究表明,通过推广反事实遗憾最小化,我们可以解决一般约束下的最优策略问题,并且该算法可广泛应用于复杂博弈中,如安全博弈中的风险缓解和扑克游戏中的对手建模。
- ICML深度强化学习中的对手建模
本文介绍了一种基于神经网络和任务多项式结构的对手建模方法,该方法能够应用于多智能体环境下的策略自适应,通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。