Feb, 2021

可证明的基于模型非线性赌博机和强化学习:放弃乐观主义,拥抱虚拟曲率

TL;DR本文主要研究基于模型的赌博机和强化学习,针对非线性函数逼近,构建了一个可证明收敛至本地最大值的模型 ——ViOlin 算法,提高了样本效率,并在多个具体场景中给出了全局或本地损失的保证。