May, 2024

可解释和可编辑的程序化树策略用于强化学习

TL;DR我们提出了 INTERPRETER,一种快速蒸馏方法,用于生成用于强化学习的可解释可编辑的树程序。我们通过实验证明,我们的树程序在各种顺序决策任务中能够与训练数据匹配,同时评估了我们设计选择对可解释性和性能的影响。我们展示了我们的策略如何被解释和编辑,以纠正目标对齐错误,并解释真实的农业策略。