Feb, 2024

策略镜像下的元学习及其镜像映射

TL;DR我们的研究发现,传统的镜像映射选择(NPG)在多个标准基准环境下往往产生次优结果。通过应用元学习方法,我们确定了提高性能的更有效的镜像映射,并分析了这些学习到的镜像映射的特点,揭示了某些设置之间的共享特征。我们的结果表明,镜像映射有潜力在各种环境中适应,这引发了如何最好地将镜像映射与环境的结构和特性相匹配的问题。