语言变形机中高维抽象阶段的出现
通过研究小规模 transformer 在重建部分遮蔽的简单蓝图可视场景方面的内在机制,我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象,这些抽象表现为低维流形,其中语义相关令牌的嵌入短暂地收敛,从而实现了对下游计算的泛化。我们还引入了一种语言增强架构(LEA),旨在鼓励网络表达其计算过程,发现 LEA 发展了一种易于解释的以抽象为中心的语言,使我们更容易访问和指导网络的决策过程。
Dec, 2023
通过引入新颖的几何视角,本文揭示了 Transformer 操作的内部机制,主要贡献在于说明层归一化将潜在特征限制在一个超球面上,从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究,我们的发现揭示了早期层中的清晰查询 - 键注意力模式,并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察,我们给出了 Transformer 的直观理解,将其描述为沿着超球面的词粒子的轨迹的建模过程。
Sep, 2023
调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务,我们证明了 Transformer 在训练时具有泛化性,但需要大量的训练数据;对于具有符号标签的 (ii) 下一个令牌预测任务,我们展示了一种 “反比例尺律”:随着嵌入维度的增加,Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况,我们提出了微妙的 Transformer 修改,通过每个头部添加两个可训练参数来减少所需的数据量。
Oct, 2023
研究表明,transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化,从而呈现出数据流形在隐藏层中的几何和统计特性,而数据流形的语义结构在第一阶段触发。基于这些观察结果,建议使用内在维度作为无监督代理,以确定下游学习任务更合适的层次。
Feb, 2023
通过简洁明了的数学框架和清晰的图示,详细解释了神经语言模型的主要类型,包括 BERT 和 GPT2,同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。
Jan, 2024
通过使用线性转换法,我们展示了在语言模型中激活层早期的内部决策过程,这种方法不仅可以产生更加精确的近似结果,还具有节省计算资源的优点。
Mar, 2023
基于 Transformer 架构的大型语言模型(LLMs)的近期进展在自然语言处理(NLP)应用领域展示了显著的拓宽范围,超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用,重点关注 GPT 系列,对人工智能(AI)驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究,同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展,Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究,突出了其多功能性和在实际应用领域中转型的潜力,从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。
Mar, 2024
利用通用逼近理论(UAT)作为理论背景,研究了语言模型的理论基础和技术策略,探讨了 Transformer 的有效性、In-Context Learning、精调和修剪的实用性。
Jul, 2024
本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变,通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动,并说明此流程如何取决于学习目标的选择。
Sep, 2019
通过一种新颖的可解释性方法,该论文使用信息论度量量化了神经模型对输入的表示的结构化程度,从而预测模型的泛化能力,并发现模型的代表性和噪声强度有关。此外,研究还研究了模型大小对表示空间结构的影响。
Jun, 2024