Sep, 2018
VPE: 变分策略嵌入用于迁移强化学习
VPE: Variational Policy Embedding for Transfer Reinforcement Learning
Isac Arnekvist, Danica Kragic, Johannes A. Stork
TL;DR本文研究了如何在不同领域中转移知识和适应环境,提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略,使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。