BERT 的可解释性幻觉

Apr, 2021

An Interpretability Illusion for BERT

Tolga Bolukbasi, Adam Pearce, Ann Yuan, Andy Coenen, Emily Reif...

TL;DR通过对 BERT 模型中的单个神经元激活的分析，我们揭示了一种 “解释能力幻觉”，揭示了 BERT 的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实，我们提供了模型学习概念的分类，讨论了解释研究的方法论含义，特别是在多个数据集上测试假设的重要性。

Abstract

We describe an "interpretability illusion" that arises when analyzing the bert model. Activations of individual neurons in the network may

interpretability bert model neurons embedding space methodology

发现论文，激发创造

使用特征文本化方法研究 BERT 神经元中单词的编码

计算机视觉中可视化特征提供了一种将视觉模型的神经元信息分解解释的方法，我们的研究受到这一方法的启发并针对大型预训练语言模型进行了活化最大化的尝试；我们提出了特征文本化技术，用于提取预训练语言模型中神经元的知识表示，发现这些表示可以揭示关于神经元所编码的知识的见解，但神经元并不代表清晰的语言符号单元如词。

Nov, 2023

可视化和测量 BERT 的几何形状

本文描述了一种特别有效的模型 BERT，它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息，同时还探讨了注意力矩阵和单词嵌入中的句法表示，并提出了一种数学证明来解释这些表示的几何形态。

Jun, 2019

发现 BERT 学习的潜在概念

此文探讨深度神经网络模型中学习的潜在观念，以及与传统的语言学层次的对比分析，并发现存在偏见的潜在观念并提供数据集（BCN）支持这些结论。

May, 2022

BERT 的通用文本表示：一项实证研究

该论文系统地研究了面向通用文本表示的分层 BERT 激活，以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中，句子级别的嵌入与两个最先进的模型进行了比较，而段落级别的嵌入则在四个问答（QA）数据集上进行了学习排名问题设置的评估。结果表明，将预训练的 BERT 模型微调于自然语言推断数据上可以显著提高嵌入的质量。

Oct, 2019

VisBERT: 针对 Transformers 模型的隐藏状态可视化

为了解决 BERT 模型在 NLP 任务中的解释和可视化问题，本文提出了一种工具 VisBERT，通过可视化 BERT 模型中的上下文令牌表示，观察该模型在每个编码器块中如何转换语义表达，并探索其推理步骤或潜在缺陷。

Nov, 2020

基于激活和显著性图解释基于 BERT 的文本相似性

本研究利用预训练的 BERT 模型提出了一种无监督的技术来解释段落相似性，该方法被广泛应用于数据集，证明了其在识别重要语义单词、匹配和检索关键词等方面表现优异，能够更准确地解释与人类感知相关的相似性预测。

Aug, 2022

变压器激活空间分析中的可解释性：重点调查

该研究论文探讨自然语言处理领域的可解释性方法，重点关注 transformer 中前馈层激活空间（Activation Space），旨在加强该领域的研究。

Jan, 2023

神经语言模型中的隐含意义表示

研究表明预先训练的神经语言模型中的预测至少部分地由意义的动态表示和实体状态的隐含模拟支持，并且这种行为可以仅依靠文本作为训练数据来学习。

Jun, 2021

生成语言模型中神经元信息性文本描述的探索

使用 BERT 为例，本文提出了一种新颖且可扩展的框架，将文本描述与神经元联系起来，并通过生成式语言模型发现数据特定的可解释描述符，用于解释编码这些描述符的神经元。实验证明，该方法在识别神经元方面达到了 75% 的 2 阶精度和 50% 的 2 阶回想率。

Jan, 2024

探究神经网络对自然语言论证的理解

本文揭示出 BERT 在 Argument Reasoning Comprehension Task 上表现出色的原因并构建了一个更具有鲁棒性的对抗数据集以评估论证理解。

Jul, 2019