长序列模型对长序列的建模能力：对长上下文能力的架构归纳偏好比较

Jul, 2024

长序列模型对长序列的建模能力：对长上下文能力的架构归纳偏好比较

How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities

HTML

PDF

Jerry Huang

TL;DR长序列在现实场景中大量出现，适当地对其进行建模可以打开许多下游用例。然而，深度神经网络在处理长序列时常常面临各种困难。最近的进展在系统工程和模型设计方面使得可以扩展模型支持更长的上下文长度。然而，这是否过于美好而不切实际？我们进行了评估，并展示了虽然这些主张在理论上是可行的，但实际上存在大量的实践差距。特别是，在相同的设置中，循环模型仍然与具有注意力的长上下文语言模型存在类似的问题。我们进一步表明不同的归纳偏见在外推能力上存在不一致性，强调了需要进一步研究这些范例，以及研究为什么长上下文模型似乎无法按预期运行。

Abstract

long sequences occur in abundance within real-world scenarios, hence properly modelling them opens numerous down-stream use-cases. deep neural networks, however, have often struggled with these for a variety of r

发现论文，激发创造

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在One Billion Word Benchmark上进行了详尽的研究，最佳单一模型将习惯度从51.3降低到30.0，而模型集成则创下了41.0到23.7的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016

语言和音乐长记忆的统计研究

本研究旨在解决长序列数据中具有长程依赖的表征和学习问题，采用长记忆随机过程的理论框架对深度学习体系结构中学习到的长程依赖进行调查和测试。

Apr, 2019

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达8K Token的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数Token上提高其预测能力（例如可以从远处文本中复制的Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

面向百万级依赖建模的长序列模型的统一视图

本文探讨了Transformers在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高40倍的计算效率。

Feb, 2023

扩展语言模型的记忆

本文介绍了长期记忆网络(LTM) 以解决自然语言理解模型在处理长的序列文本时出现的问题。通过在语言建模任务上进行测试，我们发现LTM能够学习到无限长的序列信息，并与其他需要长时间记忆的语言模型进行比较。

May, 2023

LLM或许为LongLM:无需调整自我延伸LLM上下文窗口

通过自扩展方法，利用现有的大型语言模型的内在能力来处理长文本，并延伸其上下文窗口，以有效应对长输入序列。

Jan, 2024

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于Transformer和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了13个长上下文大语言模型在我们的基准测试上，发现在20K的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过20K后，除了GPT-4之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信LIConBench可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

LongSSM: 论语言模型中的状态空间模型长度扩展

在这篇论文中，我们研究了语言建模中状态空间模型（SSMs）的长度扩展问题。我们发现，使用零隐藏状态初始化的状态空间模型在长度扩展上存在困难，并将此困难解释为多项式外推的等价形式。基于这个理论，我们提出了一种简单而有效的方法——改变隐藏状态初始化方案——以改进长度扩展。此外，我们的方法表明，使用较长的训练序列长度对于长度扩展是有益的，但并非必要条件。改变隐藏状态初始化使得能够以更小的训练上下文长度有效地训练具有长记忆的模型。

Jun, 2024