Mar, 2023
联邦多臂赌博算法的实证评估
An Empirical Evaluation of Federated Contextual Bandit Algorithms
TL;DR在联邦学习中,研究通过用户与感兴趣的应用程序交互产生的隐式信号,而非要求访问难以获取的显式标签的情况下,采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体,并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示,简单且常用的 softmax启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。