Apr, 2018

解耦动态与奖励的迁移学习

TL;DR本文提出了一种分离式学习策略,通过创造共享的表示空间来保证知识可以稳健地转移,分离学习任务表示,前向动力学,反向动力学和领域奖励函数,并表明这种分离可以提高任务内的性能并有效用于在线计划,在连续和离散 RL 领域中表现良好。