BriefGPT.xyz
Ask
alpha
关键词
reward networks
搜索结果 - 1
学习合成环境和奖励网络以进行强化学习
这篇论文介绍了一种用于训练 Reinforcement Learning 代理的代理环境模型 ——Synthetic Environments 和 Reward Networks,可以通过双层优化演进 Synthetic Environme
→
PDF
2 years ago
Prev
Next