分析 Transformer 语言模型中的编码概念

Jun, 2022

分析 Transformer 语言模型中的编码概念

Analyzing Encoded Concepts in Transformer Language Models

Hassan Sajjad, Nadir Durrani, Fahim Dalvi, Firoj Alam, Abdul Rafae Khan...

TL;DR本文提出了一个新颖的框架 ConceptX，利用聚类发现预训练语言模型中编码的潜在概念，并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解：i）学习表示中的潜在空间以不同的程度与不同的语言概念重叠，ii）模型中的较低层由词汇概念（例如，词缀）主导，而核心语言概念（例如，形态或句法关系）在中高层中更好地表示，iii）一些编码的概念具有多面性，无法用现有的人类定义概念充分说明。

Abstract

We propose a novel framework conceptx, to analyze how latent concepts are encoded in representations learned within pre-trained language models. It uses →

conceptx pre-trained language models clustering linguistic concepts morphological

发现论文，激发创造

ConceptX：潜在概念分析框架

该研究提出了 ConceptX 人在循环框架，用于解释深度语言模型中预训练隐藏表达空间，并提供自动生成的基于语言本体论的概念注释，以表示这些模型中学习到的隐含概念，从而帮助注释人员标记模型中的偏见。

Nov, 2022

发现 BERT 学习的潜在概念

此文探讨深度神经网络模型中学习的潜在观念，以及与传统的语言学层次的对比分析，并发现存在偏见的潜在观念并提供数据集（BCN）支持这些结论。

May, 2022

变压器语言模型中的结构概念是否普遍？迈向可解释的跨语言泛化

利用语言的语法方面作为测试基础，我们的分析揭示了对于仅编码器和仅解码器的大型语言模型，语言的结构概念空间之间具有高度的对齐度。然后，我们提出了一种基于元学习的方法来学习不同语言之间的概念空间对齐，从而实现零样本学习和少样本学习，并增进了对跨语境情景的学习现象的理解。在语法分析任务上的实验表明，我们的方法与最先进的方法相比取得了竞争性的结果，并缩小了语言之间的性能差距，特别有助于那些资源有限的语言。

Oct, 2023

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

在大型语言模型中识别线性关系概念

用于在 Transformer 语言模型的给定隐藏层中找到对应于可解释的人类概念的概念方向的线性关系概念技术（LRC）通过首先将主体和客体之间的关系建模为线性关系嵌入（LRE），并在倒转 LRE 同时使用较早的客体层，从而找到既可以作为分类器良好工作又能因果地影响模型输出的概念方向。

Nov, 2023

语言驱动的视觉概念学习

通过从大型预训练的视觉语言模型中提取和训练一组概念编码器，我们的目标是学习一种以语言为导向的视觉概念表示，以重现输入图像，并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入，从而生成具有视觉概念新组合的图像。

Dec, 2023

共享跨语言空间中的对齐探索

利用聚类方法探索多语言模型中的潜在概念，研究多语言嵌入之间的对齐和重叠程度，通过引入两个度量指标 CA 和 CO 进行定量分析，发现网络的深层对齐性较好，模型的微调增强了潜在空间中的对齐性，任务特定的校准有助于解释模型的零射击能力的出现。

May, 2024

深度 NLP 模型中潜在概念的拓展发现

该研究比较了三种聚类算法：凝聚层次聚类、领导算法和 K-Means 聚类，发现 K-Means 具有潜力在单词和短语层面上对编码概念进行大规模发现。

Aug, 2023

基于语言模型的本体中新概念定位框架

使用语言模型将从文本中提取的新概念插入本体的任务中，我们探索了一种三步骤的方法：边缘搜索，边缘形成和丰富，边缘选择。在所有步骤中，我们提出利用神经方法，其中我们应用基于嵌入的方法和 BERT 等预训练语言模型的对比学习进行边缘搜索，并采用基于 BERT 微调的多标签边缘交叉编码器以及 GPT 系列、FLAN-T5 和 Llama 2 等大型语言模型进行边缘选择。我们评估了使用 SNOMED CT 本体和 MedMentions 实体链接基准创建的最新数据集上的方法。我们框架中的最佳设置使用了经过微调的预训练语言模型进行搜索，以及用于选择的多标签边缘交叉编码器。LLMs 的零 - shot 提示对于该任务仍然不足，因此我们提出了 LLMs 可解释指令调整以改进性能。我们的研究展示了预训练语言模型的优势，并突出了鼓舞人心的 LLMs 性能，这激发了未来的研究。

Feb, 2024