BriefGPT.xyz
Ask
alpha
关键词
mixed-incentive domains
搜索结果 - 1
ICML
多智能体强化学习中的学习学习策略梯度算法
本研究提出了一种新的元多智能体策略梯度定理,该定理直接考虑到多智能体学习环境中固有的非稳态策略动态,并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中,我们的方法能够在全谱的
→
PDF
4 years ago
Prev
Next