BriefGPT.xyz
Ask
alpha
关键词
temporally-extended actions
搜索结果 - 3
高维对手塑造的扩展
对于混合激励的多智能体环境中,通过学习对博弈对手产生影响的对手塑造方法,我们成功将其扩展到具有长期行动和长期视角的广义和博弈,提出了一个称为 Shaper 的简化版本,并证明 Shaper 在多种具有挑战性的环境中能够改善个体和整体的结果。
PDF
7 months ago
想象中的规划:基于学习生成的抽象搜索空间的高级规划
我们提出了一种名为 PiZero 的新方法,使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同,这使得代理能够在任意时间尺度上进行高层规划,并以复合或时间扩展的动作形式进行推理,这在需要执行大量基础微动作来执
→
PDF
a year ago
异步、基于选项的多智能体策略梯度:一种条件推理方法
本文提出了一种条件推理方法,以解决多智能体协作任务中的高级行为空间集中控制和梯度获取问题,并在代表性的基于选项的多智能体协作任务上验证了其有效性。
PDF
2 years ago
Prev
Next