Apr, 2024

GOV-REK:设计鲁棒多智能体强化学习系统的受管理奖励构筑核心

TL;DR多智能体强化学习系统中,我们提出了GOVerned Reward Engineering Kernels (GOV-REK)方法,通过为智能体分配动态奖励分布来解决奖励工程问题和稀疏奖励场景下的政策收敛任务,使用Hyperband-like算法以问题无关的方式学习理想的智能体奖励模型。实验结果表明,我们的方法能够有效地加速学习过程并处理不同的MARL问题。