May, 2018

无图形图形赌博机 Thompson 抽样的分析

TL;DR本篇论文研究了带有图反馈的多臂赌博问题,其中可以观察所选行动的相邻行动,在图可能随时间变化且不向决策者完全显露的情况下。该文提出了一种算法, 并证明了在无向图情况下它达到了最优(在对数因子内)失误收敛速率。同时,论文还提出了在有向图情况下该算法略微较弱的失误收敛速率, 并提出了一种改进算法,在有向情况下,达到了最优失误收敛速率(对数因子内)。这两种算法都能有效实现,且不需要在任何时候了解反馈图。