ICMLJul, 2022
具有大动作空间的上下文臂匠算法的实用化
Contextual Bandits with Large Action Spaces: Made Practical
Yinglun Zhu, Dylan J. Foster, John Langford, Paul Mineiro
TL;DR提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。