Dec, 2020

具有深度表示和浅层探索的神经背景医师

TL;DR本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法,可以通过最后一层线性层进行探索以达到最小化后悔的效果,在计算效率方面比现有神经上下文感知强化学习算法更具优势。