Jun, 2020

R2-B2:基于递归推理的贝叶斯优化,用于非后悔学习博弈论

TL;DR本文提出了一种递归推理形式化方法,即基于递归推理的贝叶斯优化,用于建模在重复博弈中,自利的有限理性代理与具有未知、复杂且昂贵的收益函数之间的互动过程。通过在比其他代理更高的二级或更高水平上推理,我们的递归推理方法可以实现更快的渐近收敛,我们的算法在合成游戏、对抗式机器学习和多代理强化学习中的实验也展示了其性能和通用性。