Nov, 2023

稀疏奖励的自我模仿强化学习中的排序和多样性增强泛化能力

TL;DR在自我模仿学习中,我们提出了定制的采样策略,通过优先选择不同类型的转换,并将优先级技术扩展到程序生成的环境中。我们还通过修改来解决因泛化要求和优先级技术引入的偏见对多样性的影响,实验结果显示我们的修改在 MiniGrid-MultiRoom-N12-S10 环境中达到了最新的最好表现。