通过任务空间解释语言模型

ACLJun, 2024

Interpretability of Language Models via Task Spaces

Lucas Weber, Jaap Jumelet, Elia Bruni, Dieuwke Hupkes

TL;DR通过构建语言任务空间，借助相似性探测与梯度差分的微调方法，研究发现大型语言模型更好地泛化到语言任务的总体概念，利用其共享结构。此外，预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点，这可能解释了语言模型缺乏成功的课程策略的原因。

Abstract

The usual way to interpret language models (LMs) is to test their performance on different benchmarks and subsequently infer their internal processes. In this paper, we present an alternative approach, concentrating on the quality of LM processing, with a focus on their language abilit

language models linguistic task spaces similarity probing fine-tuning via gradient differentials generalisation patterns

发现论文，激发创造

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

利用信息论探测套件，我们分析了 9 项任务，涵盖语法、语义和推理，在 2 百万次预训练步骤和 5 个种子中，识别了关键学习阶段，语法知识在全面训练的 0.5% 后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Oct, 2023

大型语言模型在学习概念空间中的潜力分析

概念空间理论是一种有影响力的认知语言框架，用于表示概念的意义。通过挖掘大型语言模型（LLM）学习概念空间的潜力，研究发现 BERT 家族的精细调整模型能与甚至胜过最大的 GPT-3 模型，尽管体积要小 2 到 3 个数量级。

Oct, 2023

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了 LLMs（特别是 GPT-3.5-turbo，GPT-4 和 Llama2 系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs 利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明，LLMs 似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

多任务问题下的语言建模

本文研究语言模型作为多任务问题，结合了多任务学习，语言学和可解释性三个研究领域。通过研究来自语言学理论的假设，我们调查语言模型在训练过程中是否遵循多任务学习的学习原则。为了展示这个想法，我们分析了语言模型在学习消极极性项（NPIs）的语言概念时的泛化行为。我们的实验表明：在更一般的语言建模任务的目标中，多任务设置自然地出现。我们认为这种洞察力对于多任务学习，语言学和可解释性研究都是有价值的，并且可能导致所有三个领域的令人兴奋的新发现。

Jan, 2021

辅助任务需求掩盖了较小语言模型的能力

发展心理学家们就认知能力（如语言理解或心灵理论）何时出现进行了辩论。这些辩论往往取决于 “任务需求” 的概念 —— 与执行特定评估相关的辅助挑战 —— 这可能掩盖了儿童潜在的能力。在衡量语言模型（LM）的能力时也会遇到类似问题：对任务的表现是模型基本能力和利用其可用资源解释和执行任务的能力的综合体现。在这里，我们展示了对类比推理、反思推理、词语预测和语法判断的评估方法中，存在较高任务需求的评估比需求较低的评估表现更低。这种 “需求差距” 在参数较少、训练数据较少的模型中最为明显。我们的结果表明，LM 性能不应被解释为智能（或缺乏智能）的直接指示，而应看作是通过研究者设计选择镜头下看到的能力的反映。

Apr, 2024

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从 Glove 到 ALBERT 和 T5 等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于 transformer 的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

利用 LLMs 对实体在概念空间维度进行排名：关于微调策略的分析

通过使用可用的特征为训练数据，并分析这些模型的排名能力是否可以转移到感知和主观特征上，我们发现在一定程度上是可以的，但在训练数据中包含感知和主观特征似乎是实现最佳结果的关键，此外，我们还发现点对点的排名策略与常识相悖，并且能与成对的方法竞争。

Feb, 2024

语言模型表示空间和时间

使用 Llama-2 模型，我们通过分析三个空间数据集（全球、美国、纽约地点）和三个时间数据集（历史人物、艺术品、新闻标题）中学到的表示来找到 LLMs 学习的证据，发现 LLMs 在多个尺度上学习了空间和时间的线性表示，表征对提示的变化具有鲁棒性，并且跨不同实体类型（例如城市和地标）统一。此外，我们还确定了可靠地编码空间和时间坐标的个别 “空间神经元” 和 “时间神经元”。我们的分析证明了现代 LLMs 获取了关于空间和时间等基本维度的结构化知识，支持它们不仅仅学习了表面统计数据，而是字面上的世界模型。

Oct, 2023