子空间编年史：语言信息在语言模型训练中的产生、转变和交互

EMNLPOct, 2023

子空间编年史：语言信息在语言模型训练中的产生、转变和交互

Subspace Chronicles: How Linguistic Information Emerges, Shifts and Interacts during Language Model Training

Max Müller-Eberstein, Rob van der Goot, Barbara Plank, Ivan Titov

TL;DR利用信息论探测套件，我们分析了 9 项任务，涵盖语法、语义和推理，在 2 百万次预训练步骤和 5 个种子中，识别了关键学习阶段，语法知识在全面训练的 0.5% 后迅速获得，持续性能改善主要来自对开放域知识的获取，而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升，跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息，这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。

Abstract

representational spaces learned via language modeling are fundamental to Natural Language Processing (NLP), however there has been limited understanding regarding how and when during training various types of

representational spaces language modeling linguistic information learning phases multi-task learning

发现论文，激发创造

通过任务空间解释语言模型

通过构建语言任务空间，借助相似性探测与梯度差分的微调方法，研究发现大型语言模型更好地泛化到语言任务的总体概念，利用其共享结构。此外，预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点，这可能解释了语言模型缺乏成功的课程策略的原因。

Jun, 2024

基于子空间表示与学习的音系口语语言识别

本研究提出了一种基于子空间表示的新的学习机制，可用于从话语中提取隐藏的音位结构以进行语言验证和方言 / 口音识别，并通过核机器（如支持向量机和基于子空间的神经网络）的子空间学习实现。

Mar, 2022

自然语言多任务：分析和提高隐藏表示的句法显著性

训练多任务自动编码器进行语言任务，分析学习到的句子隐藏表示。加入翻译和词性解码器时，表示将显着改变。使用的解码器越多，模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构，得出很多有可识别句法结构的伪英语句子。最后，我们指出了模型的一个有意思的特性：两个句子之间的差分向量可以添加到第三个具有类似特征的句子中，以有意义的方式改变它。

Jan, 2018

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021

通过线性结构探测研究变压器句子嵌入的语义子空间

以语义结构探测为方法，对来自不同家族（仅编码器、仅解码器、编码解码器）和大小的语言模型进行实验，评估其在语义文本相似度和自然语言推理方面的性能和层次动态，发现模型家族在性能和层次动态上存在显著差异，但结果大部分与模型大小无关。

Oct, 2023

跨领域少样本关系抽取的语言表示

通过在关系抽取任务中引入语言表示和语义图，我们扩展了现有研究，并探讨了它们对跨领域性能的影响。我们发现，这些语言表示和语义图可以显著提高少样本学习的性能，并且在不同领域中具有相当的实用性。

Jul, 2023

语言模型教给你的句法知识比翻译多：通过辅助任务分析所学到的教训

该研究比较了四种不同的预训练目标（语言模型、翻译、跳跃思考和自编码）对模型学习语言信息和句法信息的影响，结果表明语言模型对于转移学习和需要句法信息的应用最为适合。

Sep, 2018

发现用于语言无关的多语言表示的低秩子空间

在这项工作中，我们提出了一种新的方法，通过从多语言嵌入空间中投影掉语言特定因素，以完全利用语义信息，并消除语言身份信号，从而在语义任务中取得更好的结果。

Jan, 2024

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024