Aug, 2022

使用离线数据的强化学习算法

TL;DR该论文提出一种名为 RFQI 的稳健强化学习算法,使用离线数据集来优化策略,在标准条件下该算法能够学习到近乎最优的稳健策略,并且在标准基准测试问题上展现出卓越的性能表现。