BriefGPT.xyz
Ask
alpha
关键词
policy optimization with agent modelling
搜索结果 - 1
N 代理临时团队合作
在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法
→
PDF
3 months ago
Prev
Next