Jul, 2022

DGPO: 通过多样性指导的策略优化发现多种策略

TL;DR本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实验结果表明,该方法在各种强化学习任务中有效地找到了多样化的策略,并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。