BriefGPT.xyz
Ask
alpha
关键词
nonparametric contextual bandits
搜索结果 - 2
批量非参数上下文强化学习
基于批处理约束条件的非参数上下文强化学习中,我们提出了批处理连续性排除和动态分箱 (BaSEDB) 算法,实现了最优的后悔值,通过动态地将协变量空间分割成较小的箱子,并将其宽度与批量大小相匹配,强调了静态分箱的次优性以及在完全在线设置中需要
→
PDF
4 months ago
非参数上下文臂的最重要变化跟踪
研究非参数情境赌博问题,提出经验显著变化的概念来适应不断变化的均值回报函数,证明该更宽容的变化概念可实现最小化的动态遗憾率。
PDF
a year ago
Prev
Next