Jan, 2024

未知上下文分布的上下文强化学习的最优交叉学习

TL;DR在文中,我们解决了 Balseiro 等人提出的 “交叉学习” 设置中的上下文强盗算法设计问题,通过提供一个高效算法,其拥有几乎紧密(除对数因子外)的减悔上界 O(TK),与上下文数量无关。作为结果,我们得到了对于在未知值分布下学习进行首价拍卖出价和具有随机行动集合的睡眠强盗问题的几乎紧密减悔上界。我们的算法核心是一种协调学习算法在多个时期的执行的新技术,以消除对于未知分布的估计和算法执行的动作之间的相关性。这种技术对于涉及对未知上下文分布进行估计的其他学习问题可能具有独立的意义。