Dec, 2023

面向代理模拟器的干预一致替代模型

TL;DR基于代理的模拟器提供复杂智能系统的细粒度表示,以直接模拟系统组成代理之间的交互。虽然它们的高保真性使得可以进行超局部政策评估和场景推测,但其大量计算成本限制了它们的广泛应用。本文中,我们利用因果抽象的最新发展,提出了一种用于学习在代理模拟器下具备干预一致性的替代模型的框架。我们的方法能够在复杂系统中快速针对政策干预进行实验,同时在感兴趣的干预下,以高概率使得替代模型行为与基于代理的模拟器保持一致。我们通过实证研究证明,在观测训练的替代模型中,会误判干预效果并引导决策制定者走向次优政策,而通过我们提出的方法进行干预一致性训练的替代模型能够在感兴趣的干预下与基于代理的模型行为非常接近。