功能交互揭示语言模型中的语言结构

ACLJun, 2023

功能交互揭示语言模型中的语言结构

Feature Interactions Reveal Linguistic Structure in Language Models

Jaap Jumelet, Willem Zuidema

TL;DR本文探讨了关于特征归因方法中的特征交互的问题，并提出了一种灰盒子方法，该方法能够更准确地反映目标模型的内部工作方式。通过在形式语言分类任务上训练模型，并针对性地选择特定的配置，本文展示了一些方法能够揭示模型所学的语法规则，并在对语言模型进行案例研究的基础上，提供了新的关于语言结构的见解。

Abstract

We study feature interactions in the context of feature attribution methods for post-hoc interpretability. In interpretability research, getting to grips with →

feature interactions post-hoc interpretability neural networks interaction attribution methods language models

发现论文，激发创造

特征交互的可解释归因：这种交互对我有何影响？

Archipelago 为一种交互式的注释框架，通过一系列的实验，相较于其他方法，它可以更好地给出深度神经网络的解释。

Jun, 2020

通过特征交互检测在文本分类上生成层次化解释

提出了一种新方法，即检测特征交互来构建分层解释，从而可视化不同层级中单词和短语的组合方式，帮助用户理解黑匣子模型的决策过程，并在 LSTMs、CNNs 和 BERTs 三个神经文本分类器的两个基准数据集上进行了评估，通过自动和人工评估实验证明此方法提供的解释既忠实于模型，又易于解释。

Apr, 2020

用于解释模型预测的非对称特征交互

提出了一种基于深度神经网络的自然语言处理模型的非对称特征交互解释模型，利用有向交互图表示解释，实验结果表明该模型在情感分类数据集上识别有影响的特征方面表现优异。

May, 2023

语言类型学的概率生成模型

使用指令与参数框架、生成式语言模型、指数族矩阵分解等方法建立语言结构的概率模型，实现了对不同语言之间结构的预测，并表明语言嵌入的预训练可以推广到未观察的语言。

Mar, 2019

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024

了解非线性：Shapley 互作用揭示数据的底层结构

使用 Shapley Taylor 交互指数 (STII) 分析语言模型和图像分类器中的非线性特征交互，并研究数据结构对模型表达的影响。结果表明，语言模型在成语表达中非线性特征交互增加，而依赖句法结构性更多的自回归语言模型使得 STII 随句法距离扩展。同时，图像分类器的特征交互直观地显示对象边界。这些跨领域的研究结果突显了解释性研究中跨学科合作和领域专门知识的重要性。

Mar, 2024

解释解释：深度网络的公理特征交互

本研究介绍了 Integrated Hessians，这是 Integrated Gradients 的扩展，用于解释神经网络中的成对特征交互；与以前的方法相比，Integrated Hessians 具有更快的速度和更好的性能，适用于各种神经网络架构或类别。

Feb, 2020

递归神经网络中语言形式和功能的表示

本文基于多任务门控循环神经网络的案例，提出了一种识别对网络最终预测贡献的关键词汇并分析 RNNs 激活模式的方法。发现该网络的语言模型层对句法功能词汇更敏感，而预测图像的层对句子的信息结构和语义信息更加敏感，并学会了根据词汇的语法功能进行不同处理，而被分化的各个隐藏单元则用于在长时间步骤中传递信息以编码长期任务相关性。

Feb, 2016

语言模型展示人类类似的结构启动效应吗？

我们研究了语言模型预测中在句子和单词级别发挥重要作用的语言因素，并调查这些因素是否反映了人类和人类语料库中的结果。我们利用结构启动范式，其中对结构的最近暴露有助于相同结构的处理。我们不仅调查了引导效果是否发生，还调查了它们发生的位置以及预测它们的因素。我们表明，这些效应可以通过逆频率效应来解释，即在人类引导中众所周知，引导中的较罕见元素增加引导效果，以及引导和目标之间的词汇依赖性。我们的结果为如何理解上下文中的属性如何影响语言模型中的结构预测提供了重要线索。

Jun, 2024

本地交互基础：在神经网络中识别计算相关和稀疏交互特征

通过将神经网络的激活转换为新的基础 - 局部互动基础（LIB），我们提出了一种新颖的可解释性方法，旨在识别计算特征，通过消除无关的激活和相互作用，以及基于它们对下游计算的重要性对特征进行缩放，生成显示模型中所有计算相关特征和相互作用的交互图。

May, 2024