BriefGPT.xyz
Ask
alpha
关键词
learning policy
搜索结果 - 3
未观测到混杂因素的因果模仿学习
研究表明在模仿学习中,学者提出了一个非参数图形标准来确定模仿的可行性,并建立了一个有效的程序来从专家轨迹中学习模仿策略。
PDF
2 years ago
AAAI
层次专家赌博问题的遗憾分析
本文研究了一种扩展的标准赌博机问题,其中有 R 层专家。多层专家按层选择,只有最后一层的专家才能玩臂。学习策略的目标是在这种分层专家情况下,尽可能减少总遗憾。本文首先分析遗憾总数与层数线性增长的情况。然后,我们专注于所有专家都在进行 Upp
→
PDF
2 years ago
Restless-UCB,在线不安定赌博机的高效低复杂度算法
提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题,在 Restless-UCB 中,利用前期的探索来做出更好地决策,证明了期望最大化问题在合理的标准下得到了可行的上界,相较于现有算法,使用一种新的对于状态
→
PDF
4 years ago
Prev
Next