Oct, 2023

基于观测历史的离线强化学习:分析和改善采样复杂度

TL;DR标准离线强化学习算法在观测历史的条件下存在样本复杂度高的问题,然而通过引入双模拟损失函数,离线强化学习可以显式地优化该损失函数,从而在性能上得到改善。