Sep, 2022

DEFT: 快速转移强化学习的多样化集成

TL;DR本文提出了基于 Deep Ensembles 的新方法 DEFT 来解决强化学习在高度多模态环境下的转移问题,在训练过程中加入一项鼓励策略之间不同的损失函数,产生多样性,最后将组件策略综合为新的适用于不同环境的策略。实验表明,该方法可以显著提高奖励并更快地收敛。