Apr, 2024

在大规模状态空间中学习可行的反事实解释

TL;DR我们提供了一个实验证明的深度网络学习过程,可以在此任务上取得强大的性能表现。我们考虑了几种问题形式,包括在未明确提供 “能力” 和行动影响的情况下的公式,因此存在信息挑战和计算挑战。我们的问题也可以看作是在一系列大型但确定性的马尔可夫决策过程(MDPs)中学习最优策略之一。