ICMLFeb, 2021

序列有预算学习的置信度预算匹配

TL;DR研究决策、预算有限的情况下,如何优化多臂赌博、线性赌博和强化学习等问题,通过自信度与预算匹配(CBM)的方法来解决不确定性问题。