May, 2024

有状态约束的离线强化学习

TL;DR传统离线强化学习方法主要在批量受限的环境中进行,本文通过引入一种名为 “状态约束” 的离线强化学习新框架,专注于数据集的状态分布,大大增强了学习能力并降低了先前的限制。同时,我们还引入了 StaCQ,这是一种性能良好的深度学习算法,并与我们的理论假设密切相关。