BriefGPT.xyz
Ask
alpha
关键词
implicit value ensemble
搜索结果 - 1
ICML
模型 - 价值不一致作为认知不确定性的信号
本文提出了一种新的基于模型的强化学习算法,通过利用值函数,将模型不同长度的展开作为一种集合,称之为 “implicit value ensemble”,并应用于探索、在分布变化时安全操作以及学习模型规划等方面,实证结果表明这种方法对提升探索
→
PDF
3 years ago
Prev
Next