BriefGPT.xyz
Ask
alpha
关键词
suplinucb
搜索结果 - 1
线性参数赌博机的近似极小极大后悔
研究了有限动作集的线性上下文强化学习问题,介绍了一种名为 VCL SupLinUCB 的算法,并表明其与最佳下界相匹配,相较于之前的算法分析,节省了两个对数因子。
PDF
5 years ago
Prev
Next