Jun, 2020

对抗式多臂老虎机的组合纯探索

TL;DR本文研究了基于组合纯探索的对决党卫军(CPE-DB)问题,针对Borda获胜者和Condorcet获胜者情况,提出了多种算法,包括多臂匪徒问题(CPE-MAB)的算法和重要性采样算法。针对Condorcet获胜者问题,提出了一种全项式时间逼近法(FPTAS),并利用其作为Oracle设计了一种新的纯探索算法CAR-Cond,其每轮运行时间为多项式时间,从而实现了在CPE-DB中识别Condorcet获胜者的算法首次达到多项式时间复杂度。