自回归语言模型隐藏状态的令牌分解分析模型预测

ACLMay, 2023

自回归语言模型隐藏状态的令牌分解分析模型预测

Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions

Byung-Doh Oh, William Schuler

TL;DR本研究提出了对于近现代 Transformer 架构的自回归语言模型的一种准确的每个初始输入 token 的线性分解，并使用其定义概率分布，以分离出特定的输入 token 对于后续单词序列的影响；回归实验表明，基于 Transformer 的语言模型主要依赖于搭配的联想，其次是基于语言学素材的综合推断，例如句法依赖关系和指代关系，以确定下一个单词的概率。

Abstract

While there is much recent interest in studying why Transformer-based large language models make predictions the way they do, the complex computations performed within each layer have traditionally posed a strong bottleneck. To mitigate this shortcoming, this work presents a linear decomposition of final →

transformer-based language models hidden states probability distributions collocational associations syntactic dependencies

发现论文，激发创造

Transformer 模型在上下文自回归学习中的性能表现

基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式，同时研究了正交矩阵和位置编码对于模型性能的影响。

Feb, 2024

自回归语言模型中的增量解析状态探测

本研究评估了自回归神经语言模型在句法上对语法结构维护能力的学习程度，提出了几种用于从自回归语言模型中提取不完全的句法结构的探测器，并发现这些探测器可用于预测模型对于可疑前缀的偏好、对模型的表现进行因果干预，从而表明自回归神经语言模型的下一词预测中存在隐含的增量句法推理。

Nov, 2022

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

深度转换器语言建模

本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用，探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码，证明了深度 Transformer 语言模型可以自动利用序列中的位置信息，并能在语音识别模型中得到应用。

May, 2019

通过隐藏传输进行并行解码以实现无损大型语言模型加速

大型语言模型的并行解码技术，包括隐藏状态传递、树状注意机制和加速技术等，提高了模型推理速度和生成准确性。

Apr, 2024

带前瞻注意力的自回归建模

本文介绍了一种新颖的基于 Transformer 的自回归架构，通过根据某些提议分布外推过去的多个连续部分来估计下一个令牌的分布，并关注这些扩展字符串，以改进自回归模型的性能。

May, 2023

语言建模的组合方法

本文提出了一种新的语言模型，通过序列组合树来取代之前基于线性链的假设，消除了结构上的任何假设，利用对比熵作为评估度量标准对新模型进行评估，相较于以往基于递归神经网络的模型，在失真级别上获得了超过 100% 的改进。

Apr, 2016

你需要在可能的 tokenization 上做边缘化吗？

本文研究自回归语言模型中计算字符序列概率的方法，提出了一种基于重要性采样的算法估计边缘概率，并在一系列尖端模型和数据集上进行比较，结果表明在大多数情况下，对边缘化的忽略导致的对数似然差异小于 0.5％，但对于长且复杂的数据则更加明显。

Jun, 2023

超越反馈环的自回归文本生成

本文介绍了一种将潜在状态空间模型与 CRF 观察模型结合的自回归观察模型，在无条件句子生成中，与基线模型相比具有更好的性能，避免了自回归模型的一些典型失败模式。

Aug, 2019

嵌入式表示应该嵌入什么？自回归模型表示潜在的生成分布

通过将自回归预测目标与构建预测充分统计量的思想联系起来，我们确定了三种情况下嵌入的最佳内容：独立同分布数据、潜在状态模型和离散假设空间，并进行实证研究表明 Transformers 编码了这三种潜在生成分布，并在这些情况下表现良好。

Jun, 2024