AAAIJan, 2024

构建简化和可重用的因果状态抽象用于增强学习

TL;DR用因果对等建模(CBM)方法在有因子的状态空间中学习动力学和奖励函数的因果关系,以得出最小的,任务特定的抽象。CBM 的隐式动力学模型可以在相同环境中重复使用,实验验证表明 CBM 的学习到的隐式动力学模型比显式模型更准确地识别了底层因果关系和状态抽象。此外,得出的状态抽象能够使任务学习者在所有任务上实现接近理想的样本效率,并在所有任务中优于基线模型。