Feb, 2023

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

TL;DR本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。