谈判推理：如何可证地解决相对过度概括问题

Jun, 2023

谈判推理：如何可证地解决相对过度概括问题

Negotiated Reasoning: On Provably Addressing Relative Over-Generalization

Junjie Sheng, Wenhao Li, Bo Jin, Hongyuan Zha, Jun Wang...

TL;DR本文提出了一种新的协商推理框架和实例化算法 Stein 变分协商推理 (SVNR)，其使用 Stein 变分梯度下降来导出一种协商政策，以便在最大熵策略迭代下在多智能体强化学习中避免 RO 。对许多 RO 挑战环境的数值实验证明了 SVNR 在解决 RO 中的卓越性和效率。

Abstract

over-generalization is a thorny issue in cognitive science, where people may become overly cautious due to past experiences. Agents in multi-agent reinforcement learning (MARL) also have been found to suffer rela

over-generalization cognitive science multi-agent reinforcement learning negotiated reasoning stein variational negotiated reasoning

发现论文，激发创造

相对过度概括的课程学习

本文提出了一种称为课程学习的方法来更好地克服相对泛化问题，在 QMIX 中应用该方法可以克服严重的 RO 问题，并在各种合作多智能体任务中取得了最先进的结果。

Dec, 2022

一般化递归推理模型下多智体互动中的有界理性建模

本文提出了一种广义的递归推理（GR2）框架，旨在建模具有不同分层次理性的代理，其架构能够使代理表现出不同层次的 “思考” 能力，使得上层代理可以更好地应对各种不那么复杂的学习者。我们在理论和实验方面都有贡献，首先在理论方面，通过概率图模型设计了 GR2 的分层架构，并证明了完美贝叶斯均衡存在。其次，在实证方面，我们在多种 MARL 基准测试中验证了我们的发现，证明了我们提出的方法在效果上具有巨大的优势。

Jan, 2019

在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念

本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明，这种方法能够成功地计算近似 Nash 平衡，并且可以产生与人类谈判相当的代理人。

Feb, 2023

多智能体强化学习中的递归推理图

采用递归推理模型和中央训练 - 分散执行框架的多智能体强化学习算法，能够帮助学习代理更好地合作或竞争，取得了多个多智能体粒子和机器人游戏中的最佳性能。

Mar, 2022

多智能体强化学习的概率递归推理

本论文提出了一种基于递归推理与变分 Bayes 方法的多智体强化学习框架，该框架可以用于建模智体对手的行为，提高智体的自我决策能力以及使其在博弈中达成 Nash 均衡。实验证明，关于智体对手信念的推理，是智体强化学习中一个重要的方向。

Jan, 2019

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

合作任务的乐观多智体策略梯度

基于乐观主义更新和激活函数的优化，解决了多智能体学习中的相对过度概括问题，并在复杂任务中表现出优异性能。

Nov, 2023

神经符号常识社会推理

本研究介绍了一种利用神经符号定理证明器将自然语言中的社交经验法则转换成一阶逻辑，从而进行逻辑推理，并通过一种新的算法生成抽象意义表示法（AMR）的替代简化版本，以增加对不同文本措辞和不正确 AMR 解析的稳健性。该系统在社交化学 101 个数据集中应用，旨在开发和评估执行关于社交情境的显式推理的神经符号方法。

Mar, 2023

在合作与拜占庭式分散团队中使用互信息进行迭代推理

本文提出 InfoPG 算法，以最大化相互信息来优化多智能体协作决策，有效地在多个复杂任务中提高了学习效率和总奖励。

Jan, 2022

运用变分因果推理泛化目标条件强化学习

利用 Causal Graph 加强了 Goal-Conditioned RL，提出了一种理论性能保证的优化框架，包括因果性发现、转换建模和策略训练的循环以提高 RL 代理的推理和泛化能力，并在九种任务上与五个基线进行了实证效果验证。

Jul, 2022