功能交互揭示语言模型中的语言结构
提出了一种新方法,即检测特征交互来构建分层解释,从而可视化不同层级中单词和短语的组合方式,帮助用户理解黑匣子模型的决策过程,并在 LSTMs、CNNs 和 BERTs 三个神经文本分类器的两个基准数据集上进行了评估,通过自动和人工评估实验证明此方法提供的解释既忠实于模型,又易于解释。
Apr, 2020
提出了一种基于深度神经网络的自然语言处理模型的非对称特征交互解释模型,利用有向交互图表示解释,实验结果表明该模型在情感分类数据集上识别有影响的特征方面表现优异。
May, 2023
使用指令与参数框架、生成式语言模型、指数族矩阵分解等方法建立语言结构的概率模型,实现了对不同语言之间结构的预测,并表明语言嵌入的预训练可以推广到未观察的语言。
Mar, 2019
机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架,通过四个诊断属性实现了突出和交互式解释的直接比较,并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实,而交互式解释对于学习模拟模型预测提供了更好的效用,这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。
Jun, 2024
使用 Shapley Taylor 交互指数 (STII) 分析语言模型和图像分类器中的非线性特征交互,并研究数据结构对模型表达的影响。结果表明,语言模型在成语表达中非线性特征交互增加,而依赖句法结构性更多的自回归语言模型使得 STII 随句法距离扩展。同时,图像分类器的特征交互直观地显示对象边界。这些跨领域的研究结果突显了解释性研究中跨学科合作和领域专门知识的重要性。
Mar, 2024
本研究介绍了 Integrated Hessians,这是 Integrated Gradients 的扩展,用于解释神经网络中的成对特征交互;与以前的方法相比,Integrated Hessians 具有更快的速度和更好的性能,适用于各种神经网络架构或类别。
Feb, 2020
本文基于多任务门控循环神经网络的案例,提出了一种识别对网络最终预测贡献的关键词汇并分析 RNNs 激活模式的方法。发现该网络的语言模型层对句法功能词汇更敏感,而预测图像的层对句子的信息结构和语义信息更加敏感,并学会了根据词汇的语法功能进行不同处理,而被分化的各个隐藏单元则用于在长时间步骤中传递信息以编码长期任务相关性。
Feb, 2016
我们研究了语言模型预测中在句子和单词级别发挥重要作用的语言因素,并调查这些因素是否反映了人类和人类语料库中的结果。我们利用结构启动范式,其中对结构的最近暴露有助于相同结构的处理。我们不仅调查了引导效果是否发生,还调查了它们发生的位置以及预测它们的因素。我们表明,这些效应可以通过逆频率效应来解释,即在人类引导中众所周知,引导中的较罕见元素增加引导效果,以及引导和目标之间的词汇依赖性。我们的结果为如何理解上下文中的属性如何影响语言模型中的结构预测提供了重要线索。
Jun, 2024
通过将神经网络的激活转换为新的基础 - 局部互动基础(LIB),我们提出了一种新颖的可解释性方法,旨在识别计算特征,通过消除无关的激活和相互作用,以及基于它们对下游计算的重要性对特征进行缩放,生成显示模型中所有计算相关特征和相互作用的交互图。
May, 2024