BriefGPT.xyz
Ask
alpha
关键词
policy advice
搜索结果 - 1
带有策略建议的强化学习的遗憾界
本文提出了一种强化学习与策略建议(RLPA)算法,可以利用提供的一组输入策略并学会使用最佳策略来解决当前的强化学习任务。我们证明了算法的深度复杂度和次线性遗憾与最佳输入策略相对应,而这种遗憾和复杂度与状态和动作空间的大小无关。我们的实验模拟
→
PDF
11 years ago
Prev
Next