BriefGPT.xyz
Ask
alpha
关键词
policy features
搜索结果 - 1
多智能体系统的深度策略推断 Q 网络
本文介绍了 DPIQN 和 DRPIQN,这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测,适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2
→
PDF
7 years ago
Prev
Next