Jun, 2021

线性 MDP 中多任务表示学习的能力

TL;DR本文研究了多任务表示学习在线性马尔可夫决策过程下的样本复杂度问题,并提出了 “最少激活特征稀缺” 指标,证明了多任务表示学习可以降低样本复杂度的理论依据,并发现自适应采样技术对于保证高样本效率至关重要。