ICMLJul, 2020

强化学习中的序列迁移与生成模型

TL;DR本研究旨在探讨如何设计强化学习代理,通过从之前解决的任务中转移知识,明确减少学习新任务的样本复杂度。具体地,本文关注第二种目标,即当代理具有状态行为对的生成模型时,如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型,并使用谱方法从中恢复其参数。最后,我们在简单的模拟领域中实证了我们的理论发现。