May, 2022

多阶段强化学习任务的协作策略开发

TL;DR本文提出了合作连续策略(CCP) 方法,可以让连续的代理合作解决长时间跨度的多阶段任务,在多个测试领域中,该方法成功地超越了一组简单策略,单一代理以及另一个顺序 HRL 算法。