BriefGPT.xyz
Ask
alpha
关键词
reward-free rl algorithm
搜索结果 - 1
ICML
具有广义函数近似的考虑不确定性的无奖励探索
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Cont
→
PDF
12 days ago
Prev
Next