Jun, 2023

优化和基准测试离线强化学习算法

TL;DR本文研究离线强化学习,通过对 20 个实现选择进行实证研究来选择最佳实现方案,进而实现在数据集上的新最优状态,并提供了针对离线 RL 的 8 个普遍算法的性能基准进一步揭示数据分布对学习范式成功的影响,证明了之前某些结论受数据集的影响歪曲。