Mar, 2024

生成语言模型的多层解释

TL;DR我们提出了一个名为 MExGen 的通用框架,可以扩展文本分类中的扰动解释方法(如 LIME 和 SHAP)以应对生成语言模型的挑战,该框架可用于不同的归因算法,并通过标量化器将文本映射到实数处理文本输出,同时采用多层级方法处理长输入,通过从粗粒度到细粒度的方式专注于具有模型查询线性扩展的算法,并进行系统评估,结果表明我们的框架能够提供更本地准确的生成输出解释。