Jan, 2023
适应离线算法来解决带有固定反馈的组合多臂赌博问题的框架
A Framework for Adapting Offline Algorithms to Solve Combinatorial Multi-Armed Bandit Problems with Bandit Feedback
Guanyu Nie, Yididiya Y Nadew, Yanhui Zhu, Vaneet Aggarwal, Christopher John Quinn
TL;DR该研究针对随机、组合式多臂老虎机问题,提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架,并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。