BriefGPT.xyz
Ask
alpha
关键词
contextual linear bandit setting
搜索结果 - 1
赌博机中渐进式保守探索的算法改进
本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案,并在多个合成和真实世界的问题中超越了现有的保守乐队算法。
PDF
4 years ago
Prev
Next