BriefGPT.xyz
Ask
alpha
关键词
policy generator
搜索结果 - 1
深度策略的目标条件生成器
研究探讨了目标条件强化学习,使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络,并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明,单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略,并且该算法在
→
PDF
2 years ago
Prev
Next