变形金刚,语境主义和异义性
使用语义组合性建模的透明、可解释和语言学动机策略,模拟词的上下文意义编码,并且与复杂神经结构下的黑盒模型相比,显示其与语言学动机模型在给定语义任务中的竞争力。
Dec, 2023
我们提出了一种新的上下文词表示模型,由纯句法和概率角度设计。我们的模型类似于 transformers,能够竞争性地在小到中等规模的数据集上执行任务,希望能够弥补传统句法和概率方法与先进神经方法之间的差距,并激发未来更多基于语言学原则的神经方法的启发。
Nov, 2023
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
这篇论文提供了对 Transformer-based 语言模型内部工作进行解释的当前技术的简明技术介绍,重点讨论生成式只解码器架构。我们最后总结了这些模型实现的已知内部机制的综合概述,揭示了该领域中流行方法和活跃研究方向之间的联系。
Apr, 2024
本研究发现了 Transformer 架构在语言模型方面的局限性,证明了它在信息理论意义上具有普适预测性,并在非渐近数据区域中分析了各种 Transformer 架构组件的性能,尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验验证了我们的理论分析。
Jul, 2023
本文提出使用字典学习作为线性叠加的 Transformer 成分的可视化工具,以展示 Transformer 成分所捕捉到的分层语义结构,包括词级歧义消歧,句级模式形成和远距依赖。这些模式中有些证实了常规的语言学知识,而有些则相对出乎意料,可能提供新的见解。我们希望这个可视化工具能够带来更深入的知识和更好地理解 Transformer 网络的工作原理。
Mar, 2021
通过在 Transformer 语言模型上进行一系列实验,我们发现对于当前 Transformer 语言模型的低困惑度,长上下文至关重要,但上下文的详细句法和命题内容并不重要,且在中长程上下文中,包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15%的可用信息。
Jun, 2021
将完整的输入序列转换为长的 “编码向量”,通过计算输入序列中单词对之间的关联,增强转换器中的时间上下文,而类似的编码原则可以通过神经活动在大脑皮层区域内或整个大脑尺度上传播的波动实现。
Jan, 2024
介绍了 Transformer 基本概念,描述了标准 Transformer 架构,包括一系列模型细化和常见应用,主要关注有助于理解 Transformer 及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023