BriefGPT.xyz
Ask
alpha
关键词
spanning capacity
搜索结果 - 1
当下样本独立时,瑕疵无关的增强学习何时具有统计追踪性?
我们研究了对所有政策类 Pi 进行不可知 PAC 强化学习问题:在与一个未知的具有潜在庞大状态和动作空间的 MDP 交互的情况下,需要多少轮才能学习到相对于 Pi 的 epsilon - 次优政策?为此,我们引入了一种新的复杂性度量,称为生
→
PDF
10 months ago
Prev
Next