BriefGPT.xyz
大模型
Ask
alpha
关键词
sample-efficient algorithms
搜索结果 - 4
低秩马尔可夫决策过程中的高效无模型探索
VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法,具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化,利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化,包括基于 Frank-Wolf
→
PDF
a year ago
带 B - 稳定性的部分可观测强化学习:统一的结构条件和尖锐的样本高效算法
本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件,即 B 稳定性,并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习,并且取得了很好的样
→
PDF
2 years ago
可证明的线性表示元学习
本文提出了一种基于 Meta-learning 的多任务线性回归算法,该算法能够通过低维线性表示快速学习多个相关任务,同时将这些知识传递到新的未见过的任务中,并提供了信息论下限,证明了该算法的高效性。
PDF
4 years ago
使用丰富观察的 Oracle 有效 PAC RL
本文研究了 PAC 强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法 OLIVE 不能在 Oracle 模型中实现,通过几个示例表明
→
PDF
6 years ago
Prev
Next