表示形式作为语言:一个信息论解释的框架
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023
通过构建语言任务空间,借助相似性探测与梯度差分的微调方法,研究发现大型语言模型更好地泛化到语言任务的总体概念,利用其共享结构。此外,预训练通过加强相关语言任务之间的参数共享来增加语言处理的分布性。整体泛化模式在训练过程中基本稳定且没有明显分界点,这可能解释了语言模型缺乏成功的课程策略的原因。
Jun, 2024
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
通过分析语言模型(LM)中的压缩方法,从几何和信息论的角度,我们证明这两种视角高度相关,表明语言数据的内在几何维度可以预测其在 LM 下的编码长度,进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时,我们还评估了一系列首次应用于语言数据的特征维度估计器,表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。
Oct, 2023
研究表明,transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化,从而呈现出数据流形在隐藏层中的几何和统计特性,而数据流形的语义结构在第一阶段触发。基于这些观察结果,建议使用内在维度作为无监督代理,以确定下游学习任务更合适的层次。
Feb, 2023
本文探讨了语言图表示在理论上能否 complement 并提高神经语言建模的能力。通过集成一个预训练的 Transformer 和七种不同形式主义的 ground-truth 图,研究发现,总体而言,语义组成结构对于语言建模的性能最有用,超越了句法组成结构以及句法和语义依存关系结构。此外,这种效应在不同的词性类别中差异很大。总之,我们的研究结果为神经符号语言建模带来了有前途的倾向,并邀请未来研究 quantifying 不同形式主义所做的设计选择。
Dec, 2021
研究关注于解释性方法,通过检查模型的不同方面(例如权重矩阵或注意力模式)来理解训练模型(例如 Transformer)实现的算法。通过理论结果和对合成数据的仔细控制实验的组合,我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习(有界)Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征(基于形式语言的思想,即泵引理)并证明了最佳解集合具有丰富的定性特点;特定情况下,单层的注意力模式可以 “几乎随机化”,同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物:即使在严格约束模型架构的情况下,经过标准训练也可以得到截然不同的解决方案。因此,基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。
Dec, 2023
本文描述了一种特别有效的模型 BERT,它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息,同时还探讨了注意力矩阵和单词嵌入中的句法表示,并提出了一种数学证明来解释这些表示的几何形态。
Jun, 2019
高层语义概念在大型语言模型的表示空间中按线性方式编码;本研究通过引入简单的潜在变量模型来研究这种线性表示的起源,并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。
Mar, 2024