AAAINov, 2022

利用多源数据进行离线强化学习的行为估计

TL;DR该研究提出了一种基于潜变量模型对离线强化学习中多源数据的行为估计进行精细化建模的方法,以解决现有方法在忽略数据异质性时容易出现行为估计错误的问题,并且在现有离线 RL 算法上的实验表明该方法的有效性。