一般化递归推理模型下多智体互动中的有界理性建模

Jan, 2019

一般化递归推理模型下多智体互动中的有界理性建模

Modelling Bounded Rationality in Multi-Agent Interactions by Generalized Recursive Reasoning

Ying Wen, Yaodong Yang, Rui Luo, Jun Wang

TL;DR本文提出了一种广义的递归推理（GR2）框架，旨在建模具有不同分层次理性的代理，其架构能够使代理表现出不同层次的 “思考” 能力，使得上层代理可以更好地应对各种不那么复杂的学习者。我们在理论和实验方面都有贡献，首先在理论方面，通过概率图模型设计了 GR2 的分层架构，并证明了完美贝叶斯均衡存在。其次，在实证方面，我们在多种 MARL 基准测试中验证了我们的发现，证明了我们提出的方法在效果上具有巨大的优势。

Abstract

Though limited in real-world decision making, most multi-agent reinforcement learning (MARL) models assume perfectly rational agents -- a property hardly met due to individual's cognitive limitation and/or the tractability of the decision problem. In this paper, we introduce generalized recur

multi-agent reinforcement learning recursive reasoning hierarchical framework probabilistic graphical models opponent modeling

发现论文，激发创造

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019

多智能体强化学习学习和校准异质有界理性市场行为

在代理基模型中，我们提出了一种用于在多代理强化学习框架下表示异构处理受限代理的新技术，通过共享策略学习以及代理技能水平的分布，实现了从严格效用最大化到有界理性行为的过渡，并通过使用策略梯度来学习行为，通过在多个实例中验证，我们证明了该模型在许多常见的代理设置下具有显著改进的预测能力。

Feb, 2024

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

谈判推理：如何可证地解决相对过度概括问题

本文提出了一种新的协商推理框架和实例化算法 Stein 变分协商推理 (SVNR)，其使用 Stein 变分梯度下降来导出一种协商政策，以便在最大熵策略迭代下在多智能体强化学习中避免 RO 。对许多 RO 挑战环境的数值实验证明了 SVNR 在解决 RO 中的卓越性和效率。

Jun, 2023

在合作与拜占庭式分散团队中使用互信息进行迭代推理

本文提出 InfoPG 算法，以最大化相互信息来优化多智能体协作决策，有效地在多个复杂任务中提高了学习效率和总奖励。

Jan, 2022

使用深度强化学习分析具有多个代理的微观基础一般均衡模型

使用深度多智能体强化学习算法来在微观基础下找到动态一般均衡模型中的元均衡状态，避免了理论或计算方法上的挑战，实现了稳定的、现实时间内的均衡计算，显示了硬件加速多智能体强化学习在经济建模上的前景。

Jan, 2022

神经符号方法在可解释性和概率决策中的多智能体强化学习

多智能体强化学习（MARL）在优化多智能体共享资源中的系统性能方面具有潜力，但常见的深度学习 MARL 解决方案在真实世界问题中存在可解释性、样本效率、部分可观察性等问题。为了解决这些挑战，我们提出了一种基于事件驱动的公式，利用神经符号方法处理分布式协作 MARL 智能体的决策制定。我们还开发了一种新颖的概率神经符号框架，概率逻辑神经网络（PLNN），将逻辑推理能力与概率图模型相结合，以实现在不确定性和部分可观察性下的决策制定。我们通过解决片上系统中的功率共享问题来展示我们的研究成果。

Feb, 2024

多智体决策的复杂性：从博弈中的学习到部分监控

本文研究了多智能体强化学习中的样本效率、均衡计算和统计复杂性等问题，提出了一系列新的结构性结果，并阐述了决策时附带隐藏报酬的统计复杂度。

May, 2023

可解释多智能体强化学习应用于时间查询

该研究提出了一种基于 PCTL 逻辑公式和概率模型检验的方法，用于为多智能体强化学习系统（MARL）生成策略级对比解释以回答时间用户查询，以帮助用户理解复杂环境中 MARL 代理的新兴行为，并能够解释为何用户查询不可行。实验表明，该方法有效提高了用户的性能与满意度。

May, 2023