Feb, 2021

线性赌博机和线性强化学习的近似最优表示学习

TL;DR研究多任务线性臂和线性价值函数近似下的表示学习,并提出了一个可共享表示的算法,可在多任务和时间步数下实现更小的遗憾。