ICLRFeb, 2023

VIPeR: 基于神经函数近似的离线强化学习可证明高效算法

TL;DR该研究提出了一种称为 VIPeR 的新算法,将悲观主义原则与值函数的随机扰动相结合,用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限,实现了具有集成学习功能的离线 RL 算法。