BriefGPT.xyz
Ask
alpha
关键词
pac guarantee
搜索结果 - 2
无限臂老虎机渐进最优纯探索
本文研究了纯探索问题中具有无限多臂的赌博机问题,针对固定置信和固定预算两种情形,提出了两种算法,分别以最小的期望和固定样本复杂度为目标,最终准确选择一个高质量臂,使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$,并给出了理论证
→
PDF
a year ago
NIPS
固定视界强化学习的样本复杂度
本文研究了固定时间段内交互式学习智能体的表现,并从样本复杂度的角度提出了上下 PAC 确定性保证边界,为固定时间段内 MDP 的研究提供了理论上的支持。
PDF
9 years ago
Prev
Next