Jun, 2022

多任务赌博机中的稳健转移的汤普森取样

TL;DR本研究针对具有相似但不完全相同的多臂赌博机环境中的在线多任务学习问题,研究了如何通过知识的健壮传递从而提高学习器在多个相关任务上的整体性能。我们提出了一种TS类型算法,对其进行了经验分析,并证明了它是几乎最优的。最后,我们将算法在合成数据上进行了评估,证明了TS类型算法在与基准算法和UCB算法的比较中具有卓越的经验性能。