ICMLJul, 2022

学习 Bellman 完整表示以进行离线策略评估

TL;DR该研究提出了一种名为 “BCRL” 的算法,用于学习线性 Bellman 完备的表示,并用于离线策略评估,同时在图像基础的连续控制任务中表现出较好的性能。