Feb, 2021

批次神经赌博机

TL;DR本文研究了一类常见的序贯决策问题 —— 批处理问题,提出了一种结合神经网络和乐观性的算法 BatchNeuralUCB,用于解决探索利用平衡及限制批数量的问题,并在理论上证明了其有效性,在合成和真实数据集上进行了验证。