May, 2023

上下文臂状赌博机的神经利用与探索

TL;DR本文通过提出的 EE-Net 策略,使用两个神经网络(开发网络和探索网络)来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题,提供了一个实例化的 regret upper bound,表现优于相关基线模型。