May, 2022

多任务赌博机和马尔可夫决策过程中的可证明通用函数类表示学习

TL;DR本文提出一种通用的函数类上界置信界算法(GFUCB),并首次就多任务表示学习在一般函数类情况下对于赌博机和线性MDP的效果进行了理论验证和实验探究。