Sep, 2018

VPE: 变分策略嵌入用于迁移强化学习

TL;DR本文研究了如何在不同领域中转移知识和适应环境,提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略,使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。