Feb, 2022

使用少量最优臂进行非平稳赌博与元学习

TL;DR研究了一种基于子模最大化的算法,该算法可以优化K个老虎机任务中最佳M个机器臂的最佳子集,表现出比标准算法更小的代价,同时解决了未知和已知任务边界的问题。