发现 BERT 学习的潜在概念

ICLRMay, 2022

Discovering Latent Concepts Learned in BERT

Fahim Dalvi, Abdul Rafae Khan, Firoj Alam, Nadir Durrani, Jia Xu...

TL;DR此文探讨深度神经网络模型中学习的潜在观念，以及与传统的语言学层次的对比分析，并发现存在偏见的潜在观念并提供数据集（BCN）支持这些结论。

Abstract

A large number of studies that analyze deep neural network models and their ability to encode various linguistic and non-linguistic concepts provide an interpretation of the inner mechanics of these models. The scope of the analyses is limited to pre-defined concepts that reinforce the

deep neural network models latent concepts bert model linguistic hierarchy biases

发现论文，激发创造

分析 Transformer 语言模型中的编码概念

本文提出了一个新颖的框架 ConceptX，利用聚类发现预训练语言模型中编码的潜在概念，并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解：i）学习表示中的潜在空间以不同的程度与不同的语言概念重叠，ii）模型中的较低层由词汇概念（例如，词缀）主导，而核心语言概念（例如，形态或句法关系）在中高层中更好地表示，iii）一些编码的概念具有多面性，无法用现有的人类定义概念充分说明。

Jun, 2022

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

不先告知就提问：探究语境表示中的潜在本体论

本研究介绍了一种名为潜在子类学习的方法，通过这种方法可以从输入表示中提取出诸如人的概念等熟悉的类别，以及对于核心参数的细粒度语义角色的首选，这些结果为预训练编码器中的新兴结构提供了独特的新证据。

Apr, 2020

ConceptX：潜在概念分析框架

该研究提出了 ConceptX 人在循环框架，用于解释深度语言模型中预训练隐藏表达空间，并提供自动生成的基于语言本体论的概念注释，以表示这些模型中学习到的隐含概念，从而帮助注释人员标记模型中的偏见。

Nov, 2022

卷积神经网络单元中自然语言概念的发现

本文尝试理解深度卷积神经网络对自然语言任务训练时的表示方式，发现其各个单元对特定词素、单词和短语具有选择性响应，而非对任意难以解释的模式响应。作者提出了基于复制文本单位响应的概念对齐方法，对多个数据集的分类和翻译任务进行了定量分析，并为我们深入理解深度模型如何理解自然语言提供了新思路。

Feb, 2019

BERT 的可解释性幻觉

通过对 BERT 模型中的单个神经元激活的分析，我们揭示了一种 “解释能力幻觉”，揭示了 BERT 的嵌入空间的几何特性和文本语料库表示只代表英语句子的狭窄切片的事实，我们提供了模型学习概念的分类，讨论了解释研究的方法论含义，特别是在多个数据集上测试假设的重要性。

Apr, 2021

学习潜在层次模型中的离散概念

从高维数据（例如图像）中学习概念对于构建与人工智能模型相符且可解释的机器学习模型具有潜力。本研究通过将概念形式化为离散潜在因果变量，并使用嵌入在高维数据中的概念的层次因果模型来提供理论洞见与条件，以促进从无监督数据中学习这些概念的可行性。通过合成数据实验证实我们的理论观点，并讨论了对理解潜在扩散模型的潜在机制的影响，同时提供了相应的经验证据。

Jun, 2024

探究预训练语言模型的词汇语义

本研究针对 6 种不同语言和 5 种不同词汇任务，对单语和多语言源 LM、无上下文编码和有上下文编码、特殊标记的包含和分层平均等不同词汇知识提取策略的影响进行了系统的实证分析，并验证了较低变压器层携带更多类型级词汇知识的主张。

Oct, 2020