关键词bandit problems
搜索结果 - 8
- 线性强化学习问题的信息论界限和紧凑遗憾率PDF4 months ago
- 利用混淆和选择偏倚离线数据强化改进赌博算法:一种因果方法PDF7 months ago
- Bandits 问题中学习先验知识无悔PDF3 years ago
- 非凸赌臂优化的最优梯度算法PDF3 years ago
- 线性赌博机中表示学习的影响PDF4 years ago
- 固定置信度下的最优臂识别PDF8 years ago
- 在线自助 Bootstrap 的汤普森抽样PDF10 years ago
- 线性参数化赌博机PDF16 years ago
Prev
Next