May, 2022

元学习对抗性赌博机

TL;DR本文研究了跨多任务的在线学习问题,设计了一个统一的元算法,旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证,通过任务平均后悔的降低来提高性能。