语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

Jun, 2024

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy

Mehrdad Khatir, Chandan K. Reddy

TL;DR该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Abstract

This paper explores the concept formation and alignment within the realm of language models (LMs). We propose a mechanism for identifying

concept formation alignment language models hierarchical organization semantic embeddings

发现论文，激发创造

共享跨语言空间中的对齐探索

利用聚类方法探索多语言模型中的潜在概念，研究多语言嵌入之间的对齐和重叠程度，通过引入两个度量指标 CA 和 CO 进行定量分析，发现网络的深层对齐性较好，模型的微调增强了潜在空间中的对齐性，任务特定的校准有助于解释模型的零射击能力的出现。

May, 2024

分析 Transformer 语言模型中的编码概念

本文提出了一个新颖的框架 ConceptX，利用聚类发现预训练语言模型中编码的潜在概念，并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解：i）学习表示中的潜在空间以不同的程度与不同的语言概念重叠，ii）模型中的较低层由词汇概念（例如，词缀）主导，而核心语言概念（例如，形态或句法关系）在中高层中更好地表示，iii）一些编码的概念具有多面性，无法用现有的人类定义概念充分说明。

Jun, 2022

变压器语言模型中的结构概念是否普遍？迈向可解释的跨语言泛化

利用语言的语法方面作为测试基础，我们的分析揭示了对于仅编码器和仅解码器的大型语言模型，语言的结构概念空间之间具有高度的对齐度。然后，我们提出了一种基于元学习的方法来学习不同语言之间的概念空间对齐，从而实现零样本学习和少样本学习，并增进了对跨语境情景的学习现象的理解。在语法分析任务上的实验表明，我们的方法与最先进的方法相比取得了竞争性的结果，并缩小了语言之间的性能差距，特别有助于那些资源有限的语言。

Oct, 2023

关于微调自然语言处理模型中潜空间的转换

本研究通过无监督方法分析表示空间中的潜在概念，并考察了预训练模型和微调后模型间的相似性。结论显示：较高层次的潜在空间向任务特定概念演变，而较低层次则保留了预训练模型获得的通用概念；某些概念向输出类别具有极性，并可用于生成对抗性触发器。

Oct, 2022

面向概念感知的大型语言模型

在本研究中，我们分析了当代大型语言模型对人类概念及其结构的理解程度，并讨论了发展具备概念意识的语言模型的方法，包括在不同阶段引入预训练和利用现有语言模型输出的简化方法。通过证明概念意识语言模型的初步结果，我们证明了其能够更好地符合人类直觉，提高了预测的稳定性，展示出了概念意识语言模型的潜力。

Nov, 2023

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

大型语言模型在学习概念空间中的潜力分析

概念空间理论是一种有影响力的认知语言框架，用于表示概念的意义。通过挖掘大型语言模型（LLM）学习概念空间的潜力，研究发现 BERT 家族的精细调整模型能与甚至胜过最大的 GPT-3 模型，尽管体积要小 2 到 3 个数量级。

Oct, 2023

发现 BERT 学习的潜在概念

此文探讨深度神经网络模型中学习的潜在观念，以及与传统的语言学层次的对比分析，并发现存在偏见的潜在观念并提供数据集（BCN）支持这些结论。

May, 2022

深度 NLP 模型中潜在概念的拓展发现

该研究比较了三种聚类算法：凝聚层次聚类、领导算法和 K-Means 聚类，发现 K-Means 具有潜力在单词和短语层面上对编码概念进行大规模发现。

Aug, 2023

一个语言模型的隐空间指南

通过用概念向量探测和激活推断期间的激活来引导隐藏表示，该论文将概念引导的研究拓展到诸如适应性、幽默、创造力和质量等更丰富的概念，探索现有检测和引导策略在这些挑战性环境中的工作程度，同时开发了一种新的以概念引导为度量的指标来评估，研究显示，一些概念如真实性相对容易通过现有技术进行引导，而适应性或幽默等新概念则更难探测和引导，并需要进一步调整。

Feb, 2024