May, 2023

自然语言解释的忠实度测试

TL;DR本文探讨评估自然语言解释(NLEs)忠实度的挑战性问题,提出了两个测试:第一个是插入导致反事实预测的原因的反事实输入编辑器,第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型,是开发忠实 NLE 的基本工具。