BriefGPT.xyz
Ask
alpha
关键词
maximum entropy population-based training
搜索结果 - 1
零样本人工智能协同的最大熵基于人口训练
本文提出了一种通过最大熵种群训练(MEP)来训练 RL 系统的方法,以促进代理系统间的多样性和个体代理自身的多样性,并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中,与自我游戏 PPO(SP)等方法进行比较,我们证明了
→
PDF
3 years ago
Prev
Next