AAAIDec, 2023

悲观离线强化学习的神经网络近似

TL;DR利用深度强化学习和贝尔曼残差的耦合,我们在一些温和假设下,建立了悲观离线强化学习的非渐进估计误差,该结果展示了深度对抗式离线强化学习框架的显式效率,并对算法模型设计提供了指导。