BriefGPT.xyz
Ask
alpha
关键词
action guidance
搜索结果 - 2
AAAI
基于 MCTS 的深度强化学习的行动指导
本文研究如何利用非专家演示者的行动指导来提高 Pommerman 多智能体基准环境下稀疏、延迟和可能具有误导性奖励的领域中的样本效率。我们提出了一个新框架,可以在异步分布式深度强化学习方法中集成非专家演示者,即使用 Monte Carlo
→
PDF
5 years ago
使用浅层 MCTS 增强 Pommerman 中的深度 RL 安全性探究
本文研究如何使用非专业演示者的行动指导来避免稀疏、延迟和具有欺骗性的奖励域中的灾难性事件,并提出了一种新的框架将计划算法与异步分布式深度强化学习方法相结合,相比传统的深度强化学习算法,提高了学习速度并收敛到更好的策略。
PDF
5 years ago
Prev
Next