Oct, 2023

奖励一致性动力模型在离线强化学习中具有强大的泛化能力

TL;DR学习精确的动力学模型对于脱机强化学习非常重要,我们提出了奖励一致性动力学模型的概念,通过生成具有最高动力学奖励值的批次转换来改善脱机模型建立强化学习方法的性能。