Oct, 2021

EE-Net: 上下文Bandit中的开发-探索神经网络

TL;DR本文提出了一种新颖的神经探索策略,在上下文赌博中提高了标准基于UCB和TS方法的表现,该策略通过使用神经网络来学习潜在奖励函数,并使用另一个神经网络来自适应地学习探索潜在收益,通过决策者来将这两个网络的结果结合起来,实现了更好的表现。