EMNLPMar, 2021
模型可解释性的对照解释
Contrastive Explanations for Model Interpretability
Alon Jacovi, Swabha Swayamdipta, Shauli Ravfogel, Yanai Elazar, Yejin Choi...
TL;DR该研究提出了一种利用潜空间对分类模型进行对比解释的方法,可以对输入的文本进行高、低级别的概念和属性归纳分析,以实现更准确、细粒度的模型可解释性。
Abstract
contrastive explanations clarify why an event occurred in contrast to
another. They are more inherently intuitive to humans to both produce and
comprehend. We propose a methodology to produce contrastive explanations
发现论文,激发创造
宁愿是护士也不是医生 -- 对比解释的调查研究
对四个英文文本分类数据集进行分析,通过三种不同规模的模型以及三种后期解释性方法,验证了模型解释和人类解释在对比性和非对比性设置下的一致性。
Oct, 2023
对大型语言模型的对比解释方法
通过黑盒 / 查询访问,我们提出了两种对比解释方法:一种是效率较高但需要多次模型调用的近视算法,另一种是主要算法贡献的预算算法。我们展示了这些方法在不同自然语言任务中的有效性,例如开放文本生成、自动红队战术和解释对话衰退。
Jun, 2024
利用生成潜空间中的对比可反事实来解释图像分类器
在不需要重新训练或调整的情况下,使用预训练的生成模型,介绍了生成因果关系和可解释的反事实解释方法,以提供对黑匣子算法的透明性,并获得对面部属性分类器的对比和因果支持和必要分数,从而展示不同属性如何影响分类器输出。
Jun, 2022
利用潜在特征进行本地解释
本研究探讨了一种利用潜在特征产生对照解释的新方向,通过添加新特征改变分类结果的方法进行预测的解释,证明了该方法在样本丰富的数据集上产生的直观解释优于其他方法,并可作为目前最先进的解释性方法的补充。
May, 2019
结构化数据的模型无关对比解释
提出了一种模型无关对比解释方法(MACEM),旨在对任何分类模型生成对比解释,该方法处理实际和分类特征,提出了计算相应正例和反例的新方法,并通过 5 个公共数据集的定量和定性验证来证明该方法的有效性。
May, 2019
超出模型可解释性:对比文本解释的忠实度和对抗鲁棒性
本文介绍了一种通过对比解释方法,以可解释性和新建议形式提高分类器预测的可行性。该方法在文本数据上的应用情况得到了分析和评估,以及对研究所提供的度量标准的可靠性进行了初步的验证。
Oct, 2022
对比短语突出解释:辅助人类发现翻译差异的案例研究
基于对比方式生成强调对预测结果解释的相似指标,该技术比流行的事后重要性技术更好地匹配了人类的跨语义差异解释,并成功地帮助人们检测到人工翻译和机器翻译错误的细微语义差异。
Dec, 2023