May, 2024

线性高斯动态系统产Generated生的不相容Bandit问题

TL;DR我们研究了连续状态空间中的不安宁赌博机问题,采用线性高斯动态系统生成的动作向量和状态向量的内积作为奖励,通过一种方法对每个动作的奖励进行预测,该方法通过线性组合先前观察到的奖励来预测每个动作的未来奖励。我们展示了无论先前选择的动作序列如何,可以利用为任何先前选择的动作采样的奖励来预测另一个动作的未来奖励,即$t-1$回合选择的动作1的奖励可以用于预测$t$回合的动作2的奖励。为此,我们设计了一种修改的卡尔曼滤波器,并提供了在一组线性高斯动态系统上的数值评估。