Oct, 2019

强化学习中的单集策略转移

TL;DR为了实现在只进行一次尝试的测试时间内进行最优化,特别是在没有对丰富奖励的访问权下,我们提出了一种通用算法,该算法通过优化探针和推理模型来快速估计测试动态的潜在变量,然后立即将其用作通用控制策略的输入。这种模块化方法可以集成最先进的变分推理算法或强化学习算法,并且不需要在测试时间访问奖励,可以在现有的自适应方法无法适应的设置中执行,是一种优秀的迁移方式。