Jul, 2018

具未知延迟的强盗在线学习

TL;DR该论文研究了多臂赌博问题和赌博凸优化问题中存在的未知延迟反馈问题,并开发了应对这种情况下的延迟探索、利用和指数迭代(DEXP3)和延迟赌博梯度下降(DBGD)算法。通过统一的分析框架,证明了 DEXP3 和 DBGD 算法的性能优越。