BriefGPT.xyz
Ask
alpha
关键词
universal value function approximator
搜索结果 - 1
利用地标映射状态空间实现通用目标达成
本文提出了一种在具有稀疏奖励下的大型 MDPs 中处理 long-range goals 的方法,该方法通过分层建模、farthest point sampling 和 RL 算法的结合来解决这个问题。实验结果表明,该方法比标准的 RL 算
→
PDF
5 years ago
Prev
Next