Jun, 2020

基于模型的对抗元强化学习

TL;DR本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning),通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap),以及使用最大化次优性策略的对抗任务找到最优策略,以提高元强化学习算法在任务分布变化下的泛化能力和性能效率,试验表明该算法具有优异性能。