Nov, 2023

双线性强盗问题中的纯探索多任务表示学习

TL;DR在本研究中,我们研究了在双线性赌博机中进行纯探索问题的多任务表示学习。我们提出了一种名为 GOBLIN 的算法,利用实验设计方法来优化学习全局表示的样本分配,并最小化在个体任务中识别最佳臂对所需的样本数量。据我们所知,这是第一项对具有共享表示的双线性赌博机进行纯探索的样本复杂性分析的研究。我们的结果表明,通过跨任务学习共享表示,与独立解决任务的传统方法相比,我们实现了显着改进的样本复杂性。