Jun, 2023

谈判推理:如何可证地解决相对过度概括问题

TL;DR本文提出了一种新的协商推理框架和实例化算法 Stein 变分协商推理 (SVNR),其使用 Stein 变分梯度下降来导出一种协商政策,以便在最大熵策略迭代下在多智能体强化学习中避免 RO 。对许多 RO 挑战环境的数值实验证明了 SVNR 在解决 RO 中的卓越性和效率。