Oct, 2023

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

TL;DR解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。