ICLRApr, 2024

组成保守主义:离线强化学习中的传导式方法

TL;DR离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决,该方法在复杂的输入空间中寻找共享分布点和差异,从而提高算法性能。