Oct, 2023
非平稳环境下的上下文广告学习通过神经预测集成抽样
Non-Stationary Contextual Bandit Learning via Neural Predictive Ensemble Sampling
Zheqing Zhu, Yueyang Liu, Xu Kuang, Benjamin Van Roy
TL;DR在这篇论文中,我们介绍了一种新颖的非平稳情境强化学习算法,它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制,在非平稳环境中优先采集具有最持久价值的信息,并通过对两个展现明显非平稳性的真实推荐数据集的实证评估,我们证明了我们的方法明显优于现有技术水平。