大型时间序列模型的尺度定律
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
通过将时间序列编码为数字字符串,我们可以将时间序列预测视为文本中的下一个标记预测。我们发现,大型语言模型(LLMs)如GPT-3和LLaMA-2可以意外地在零样本外推时间序列,其性能与或超过在下游任务上训练的专用时间序列模型相当。为了促进这种性能,我们提出了有效令牌化时间序列数据并将离散分布转换为对连续值的高度灵活的密度的流程。我们认为,LLMs对于时间序列的成功源于它们能够自然地表示多模态分布,结合了对简洁性和重复性的偏好,这与许多时间序列的显著特征(如重复季节性趋势)相一致。我们还展示了LLMs如何自然处理缺失数据而无需插补,容纳文本边信息,并回答问题以帮助解释预测。虽然我们发现增加模型大小通常会提高时间序列的性能,但我们展示了由于GPT-4如何令牌化数字以及较差的不确定性校准,它可能比GPT-3表现更差,这很可能是因为诸如RLHF之类的对齐干预的结果。
Oct, 2023
预训练的大型语言模型(LLMs)在进行零-shot任务(包括时间序列预测)时表现出惊人的效果,本文研究了LLMs在从事受物理规律控制的动力系统情景下外推行为的能力,结果显示LLaMA2在无需微调或提示工程的情况下能准确预测动力系统时间序列,此外,学习到的物理规律的准确性随输入环境窗口长度的增加而增加,揭示了一种上下文版本的神经缩放定律,并提出了一种灵活高效的算法,可直接从LLMs中提取多位数的概率密度函数。
Feb, 2024
本研究论文致力于提出一种大规模时间序列模型(Time Series Transformer),通过深度学习和大规模预训练,解决了小样本情境下时间序列分析中的性能瓶颈问题。
Feb, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
近期基于Transformer的大型语言模型展示了在提供的上下文情况下学习各种函数的能力,而无需更新模型参数。为了充分利用上下文能力进行时间序列预测问题,我们将“时间序列预测任务”重新构建为输入令牌,通过生成一系列(回顾,未来)对。该方法更加符合内在的上下文机制,并且在不使用预训练的大型语言模型参数的情况下更加参数高效。此外,它解决了现有基于Transformer的时间序列预测模型中的过拟合等问题,并在完整数据、少样本和零样本设置下始终比以前的架构表现更好。
May, 2024
在大型语言模型中,尤其是在时间序列预测方面,进行了一系列消融研究,发现移除语言模型组件或用基本的注意力层替换并不降低预测结果,甚至在大多数情况下结果有所提升。此外,预训练的语言模型并不比从头开始训练的模型更好,不能准确表示时间序列中的顺序依赖关系,也不能在小样本场景中提供帮助。同时,研究了时间序列编码器,揭示了贴片和注意力结构与基于最新技术的LLM的预测模型效果相似。
Jun, 2024
本研究探讨了大型语言模型(LLMs)在时间序列预测中的应用,重点分析了LLMTIME模型。研究显示,尽管LLMs在生成文本、翻译和情感分析等任务中表现良好,但在处理复杂时间序列数据时,其预测准确性显著下降,尤其是当数据包含周期性和趋势成分时。这一发现强调了针对时间序列的LLMs的局限性和面临的挑战。
Aug, 2024
本研究旨在解决时间序列基础模型在分布外(OOD)数据的扩展特性尚未得到充分研究的问题。论文通过分析编码器和解码器两种常见架构,揭示了它们在不同数据集上的扩展行为,发现编码器架构在可扩展性上优于解码器,并提供了设计和扩展更强大模型的实用指导。研究的重要发现为基础模型的发展提供了新的方向,特别是在如何有效扩大模型规模以提升性能方面。
Oct, 2024
本研究解决了变压器模型扩展规律缺乏严格理解的问题。通过建立新的统计估计和数学近似理论,提出了在低维流形数据上变压器泛化误差与训练数据规模和网络规模之间存在幂律关系,该关系依赖于数据内在维度。研究表明,数据的内在维度对变压器扩展规律具有重要影响,并且与实证观察结果高度一致。
Nov, 2024