Jun, 2018

上下文感知策略复用

TL;DR本文提出了一种名为 CAPS 的上下文感知策略重用方法,它学习何时和哪个源策略最适合重用以及何时终止其重用,从而提高了转移效率并保证了收敛和最优性。实验结果表明,CAPS 在网格导航领域和 Pygame 学习环境中明显优于其他最先进的策略重用方法。