Jun, 2021

凹形效用强化学习:均场博弈的视角

TL;DR本研究介绍了基于凹效用函数的强化学习模型 CURL,它扩展了线性到凹效用,同时将模仿学习和探索等领域纳入范畴。该模型违反经典 Bellman 方程,需要新算法。本文通过证明 CURL 是 MFG 的子类,将两个社区联系了起来,并通过实验表明,最近为 MFG 解决问题引入的算法可以更有效地解决 CURL 问题。