ACLApr, 2022

自然语言模型理解中的本地聚合特征归因

TL;DR本文提出了用于自然语言处理模型的新型基于梯度的特征暗示方法(Locally Aggregated Feature Attribution,LAFA),通过汇集从语言模型嵌入推导出的类似参考文本来平滑梯度,以实现对模型的解释性。该方法在公共数据集上进行了实验,包括实体识别和情感分析以及在构建的 Amazon 目录数据集上对重要特征的检测。通过实验,证明了该方法的优越性能。