BriefGPT.xyz
Ask
alpha
关键词
value disagreement
搜索结果 - 1
自动设计有趣的多智能体环境
通过提供内在的奖励机制,增加多智能体环境中 RL 学习的效率,我们在多智能体 Hide and Seek 和单智能体迷宫任务中,考察了一系列根据预测问题构建的内在老师奖励,并发现其中价值不一致是最为稳健和高效的奖励方式。
PDF
2 years ago
Prev
Next