大型语言模型的时间箭头
通过利用大型语言模型,研究利用自回归时间序列预测模型(AutoTimes)处理时间序列数据,该模型利用基于语言建模学习的通用令牌转换,具备灵活的系列长度和较高的性能。
Feb, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
本文研究证明了存在一种具有可逆性质的 VARMA 模型,但在噪声变量服从非高斯分布时这种性质会破坏,从而提出了一种算法用于推断时间方向,并探究了算法在不同情况下的表现和应用,可扩展到因果推断领域。
Mar, 2016
对利用大型语言模型(LLMs)进行时间序列分析的现有方法进行了系统概述,总结了基于 LLM 的时间序列分析的一般流程,并探讨了未来的研究机会。
Feb, 2024
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在 Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度,它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
本文通过数学研究自回归语言模型预训练在下游任务中的应用,提出了将分类任务转化为句子填充任务的假设,证实表现好的语言模型可以是有意义的预训练任务,并给出了相应的数学形式化,同时通过分析认为语言模型可以有助于线性解决分类任务。
Oct, 2020
语言模型在预训练时如何学习进行预测?通过提取来自五个自回归英语语言模型预训练运行的学习曲线,我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度,在预训练运行内外变异度更小,更早被学习,而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关,较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小,尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。
Aug, 2023
通过训练动力学,理论分析自回归模型中的逆转问题,揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性;同时,证明了链式思维在一层变压器中的必要性,并进行了与多层变压器的实验证实。
May, 2024