Mar, 2024

共享仿射子空间中的元学习在赌博机中的应用

TL;DR通过在线主成分分析学习低维仿射子空间,从而降低遇到的赌博机的预期遗憾,我们研究了通过充分利用其集中性解决多个情境随机赌博任务的元学习问题。我们提出并理论地分析了两种解决方法:一种是基于在不确定性面前的乐观原则,另一种是通过汤普森抽样。我们的框架是通用的,并包括之前提出的方法作为特殊情况。此外,实证结果表明,我们的方法显著减少了一些赌博任务的遗憾。