BriefGPT.xyz
Ask
alpha
关键词
linear reward function
搜索结果 - 2
上下文赌博机的超参数调整
本文探讨了在线学习环境下,通过使用赌博机算法来自动确定探索参数,优化上下文赌博算法探索与利用的平衡问题。
PDF
4 years ago
针对对抗性线性情境赌博机的高效稳健算法
针对经典 $K$-armed 线性上下文对抗性问题,我们开发了基于 Exp3 算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
PDF
4 years ago
Prev
Next