BriefGPT.xyz
Ask
alpha
关键词
dqn policies
搜索结果 - 1
NIPS
记忆镜头:一个代理程序使用了多少内存?
提出一种新方法来研究强化学习策略所使用的内部记忆,通过估计行为历史与代理人当前动作之间的互信息来估计相关的过去信息量,并在被动设置下进行这种估计。此外,通过显示它产生了一个实现无关的最小内存容量下界,为我们的方法提供了理论上的理由。作者对对
→
PDF
8 years ago
Prev
Next