Jun, 2022

多任务表示学习在强化学习中的证明收益

TL;DR本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率,并证明了它比单独学习每个任务更加样本高效。此外,我们还研究了下游强化学习,并表明与直接学习低秩模型有所不同的是,从上游学习的表示更有利于下游强化学习。