ACLOct, 2021
如何使用被遮掩语言模型合成的反事实来避免解释文本分类器的决策的困扰?
Double Trouble: How to not explain a text classifier's decisions using counterfactuals synthesized by masked language models?
Thang M. Pham, Trung Bui, Long Mai, Anh Nguyen
TL;DR本文研究了属于权值归因方法的输入边缘化算法 (Input Marginalization) 和基于局部线性扫描 (LIME) 的可解释性方法,发现 LIME 方法在使用 BERT 模型进行样本生成后,比输入边缘化算法具有更高的鲁棒性和可靠性