BriefGPT.xyz
大模型
Ask
alpha
关键词
minimax-optimal
搜索结果 - 2
具有生成模型的 KL 熵正则化强化学习是极小极大值最优的
本文研究了使用生成模型的无模型强化学习的样本复杂性,重点分析了使用 Kullback-Leibler 散度和熵正则化在值和策略更新中的 Geist 等人(2019)和 Vieillard 等人的 Mirror descent value i
→
PDF
2 years ago
ICML
自主探索与多目标随机最短路径的近最优算法
该研究重新审视了 Lim&Auer(2012)提出的增量自主探索问题,提出了一种新算法,并证明了该算法在控制状态数多项式增长时是几乎极小化的。
PDF
2 years ago
Prev
Next