EOS 决策和长度外推

EMNLPOct, 2020

The EOS Decision and Length Extrapolation

Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning

TL;DR研究神经生成模型中扩展到未知序列长度的挑战，表征了一种常常被忽视的建模决策：通过使用特殊的序列结尾（EOS）词汇项来预测生成过程的结束，探讨了在测试时强制模型生成到正确序列长度的神谕设置，对比训练预测 EOS (+EOS) 神经网络与未训练 (-EOS) 神经网络的长度外推行为，发现 -EOS 显著优于 +EOS，能够在括号闭合任务中良好地外推到比训练时间长 10 倍的长度，以及在困难的 SCAN 数据集长度泛化任务中比 +EOS 实现了 40% 的提升。

Abstract

Extrapolation to unseen sequence lengths is a challenge for neural generative models of language. In this work, we characterize the effect on length extrapolation of a modeling decision often overlooked: predicting the end of the generative process through the use of a special end-of-sequence (EOS) vocabulary item. We study an →

neural generative models length extrapolation special end-of-sequence (eos) vocabulary item oracle setting length manifolds

发现论文，激发创造

有关自我关键序列训练中序列结束符的澄清请求

本文研究图像字幕生成领域中的自我评估序列训练方法，提出了缺乏透明度和对序列结束标记的认知所带来的问题，并通过介绍一个名为 SacreEOS 的库来解决该问题。

May, 2023

未明确说明的语义：自然语言生成模型 GPT2 中的段落结束和序列标记的影响

研究隐式信息如何影响文本生成质量，并发现使用预训练语言模型 GPT2 可以通过在微调阶段学习生成段落结束符以获得更好的文本连续性，其在生成英语故事和中文文章方面实现了比较好的实验结果。

Apr, 2020

Transformer 长度外推：以位置编码为视角的调查

该研究论文对基于 Transformer 的预训练语言模型和长度外推问题进行了系统性的回顾，聚焦于可外推位置编码方法，旨在帮助读者深入理解已有方法并为未来研究提供启示。

Dec, 2023

大型语言模型的归纳自然语言原理和交错标记令其具备外推能力

本文针对当前深度学习模型在长序列外推问题上存在的挑战，探讨了通过引入逐步解释和引入位置标记符来实现大规模语言模型的外推，强调了这两种补充方法是如何实现了显著的序列外推，并突出了当前体系结构在没有显式形式指导的情况下实现有效泛化的局限性。

Aug, 2022

大型语言模型中的长度泛化探究

该研究探讨了基于 transformer 的语言模型的长度推广能力，发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广，并鉴别了错误的共同来源，为赋予语言模型推广到更长问题的能力提供了新的机会。

Jul, 2022

CLEX: 大型语言模型的连续长度外推

建议一种基于连续长度外推（CLEX）的 Transformer-based Large Language Models (LLMs)，可将 context window 扩展到训练序列长度的 4 倍或 8 倍，并在实际任务中表现出竞争性性能。

Oct, 2023

考虑位置注意力用于长序列的外推

本文讨论神经网络的外推问题，提出针对自然语言处理中对比训练集更长序列的泛化能力的注意力机制，并在 Lookup Table 任务的变体上验证了此假设，证明此种模型能更好地处理序列问题。

Nov, 2019

Transformer 模型可以实现长度概括，但不具备鲁棒性

使用适当的数据格式和位置编码的组合，本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功，然而与内分布泛化不同，长度泛化仍然是脆弱的，受到随机权重初始化和训练数据顺序等因素的显著影响，导致不同随机种子之间存在较大差异。

Feb, 2024

LongSSM: 论语言模型中的状态空间模型长度扩展

在这篇论文中，我们研究了语言建模中状态空间模型（SSMs）的长度扩展问题。我们发现，使用零隐藏状态初始化的状态空间模型在长度扩展上存在困难，并将此困难解释为多项式外推的等价形式。基于这个理论，我们提出了一种简单而有效的方法 —— 改变隐藏状态初始化方案 —— 以改进长度扩展。此外，我们的方法表明，使用较长的训练序列长度对于长度扩展是有益的，但并非必要条件。改变隐藏状态初始化使得能够以更小的训练上下文长度有效地训练具有长记忆的模型。

Jun, 2024

守口如瓶：从人类反馈中减轻强化学习的长度偏差

通过使用 “Product-of-Experts（PoE）” 技术，我们提出了一种创新的解决方案，将奖励建模与序列长度的影响相分离，从而使语言模型的性能得到提升。

Oct, 2023