Feb, 2022
利用对比解释解读语言模型
Interpreting Language Models with Contrastive Explanations
Kayo Yin, Graham Neubig
TL;DR该研究关注对语言模型的对比解释,证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的,并且可以表征模型在各种语言生成决策中使用的输入令牌。
Abstract
model interpretability methods are often used to explain nlp model decisions
on tasks such as text classification, where the output space is relatively
small. However, when applied to →
发现论文,激发创造
对大型语言模型的对比解释方法
通过黑盒 / 查询访问,我们提出了两种对比解释方法:一种是效率较高但需要多次模型调用的近视算法,另一种是主要算法贡献的预算算法。我们展示了这些方法在不同自然语言任务中的有效性,例如开放文本生成、自动红队战术和解释对话衰退。
Jun, 2024
宁愿是护士也不是医生 -- 对比解释的调查研究
对四个英文文本分类数据集进行分析,通过三种不同规模的模型以及三种后期解释性方法,验证了模型解释和人类解释在对比性和非对比性设置下的一致性。
Oct, 2023
对比短语突出解释:辅助人类发现翻译差异的案例研究
基于对比方式生成强调对预测结果解释的相似指标,该技术比流行的事后重要性技术更好地匹配了人类的跨语义差异解释,并成功地帮助人们检测到人工翻译和机器翻译错误的细微语义差异。
Dec, 2023
使用高影响概念解释语言模型的预测
本文提出了一个完整的框架,将基于概念的解释性方法扩展到 NLP 领域, 提出了一种后期解释性方法,从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,设立了多种评估指标。在真实和合成任务上的广泛实验表明,与基线相比,我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
May, 2023
模型无关 NLP 可解释性中解释的粒度
通过对复杂的基于 BERT 的分类器使用基于段落的方法,本文改进了当前基于单词采样的黑盒 NLP 可解释性方法的局限性,大大提高了基准分类任务的解释保真度。
Dec, 2020
解释型自然语言处理的本地解释概览
研究探讨了提高深度神经网络在自然语言处理(NLP)任务中的可解释性的各种方法,包括机器翻译和情感分析,并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法,并将其分为三类:1)通过相关的输入特征解释模型的预测;2)通过自然语言解释进行解释;3)探查模型和单词表示的隐藏状态。
Mar, 2021