AAAIMar, 2021

迈向可靠的长距离策略迁移

TL;DR通过提出一种新的方法,我们利用分层结构来训练组合函数,并交替适应各种不同的原始策略,从而在具有挑战性的新任务中高效地生成一系列复杂的行为,同时设计了两个正则化项来提高原始策略的多样性和利用率。实验结果表明,我们的方法在连续行动空间任务中效果优于其他近期的策略转移方法,并且提供更广泛的传递范围。