Nov, 2023

高维线性多臂赌博机与背包问题

TL;DR研究如何在高维度环境下应用稀疏估计和在线学习算法改进上下文强化学习中的多臂老虎机与背包问题,通过联合在线估计和原始 - 对偶框架,控制背包容量,从而取得了特征维度对数级依赖的次线性遗憾,同时在数据贫瘠和数据丰富情况下实现了最优遗憾结果。