Feb, 2020

赌博机中渐进式保守探索的算法改进

TL;DR本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案,并在多个合成和真实世界的问题中超越了现有的保守乐队算法。