BriefGPT.xyz
Ask
alpha
关键词
ephemeral value adjustments
搜索结果 - 1
NIPS
利用过去的在线调整进行快速深度强化学习
我们提出了 “短暂价值调整(Ephemeral Value Adjustments,EVA)”:一种允许深度强化学习代理快速适应其回放缓冲区中的经验的方法。EVA 通过估计从当前状态附近的回放缓冲区中的经验组成的价值函数来转移神经网络预测的
→
PDF
6 years ago
Prev
Next