- CAPE:用于长度推断的上下文自适应位置编码
提出了一种动态根据输入语境调整的上下文自适应位置编码方法,通过实验验证在真实世界数据集上改善了模型性能,提升了训练长度和长度泛化能力,同时保留了局部和反局部信息。
- 无位置编码的因果 Transformer 的长度概化
通过对无位置编码(NoPE)的长度泛化属性进行研究,我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列,但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系,并提出了一种参数高效的调整方法,通过搜索注意力 - 学习推理中长度泛化的理论
针对学习推理中的长度泛化问题,本文通过理论研究提出一种可以模拟成有向无环图(DAGs)的问题的长度泛化条件,并设计了基于该理论的问题表示方法,使用 Transformer 模型完美解决了诸如奇偶性、加法和乘法等具有挑战性的推理问题。
- Transformer 模型可以实现长度概括,但不具备鲁棒性
使用适当的数据格式和位置编码的组合,本研究首次展示了标准 Transformers 在能够外推到输入长度 2.5 倍的序列长度方面的成功,然而与内分布泛化不同,长度泛化仍然是脆弱的,受到随机权重初始化和训练数据顺序等因素的显著影响,导致不同 - 关于可证明长度和组合泛化性的研究
通过针对不同架构(包括深度集合、转换器、状态空间模型和简单循环神经网络)的研究,我们首次提出了能够证明长度和组合泛化的方法,并证明了对于长度和组合泛化,需要不同程度的表示识别,如与地面真实表示的线性或排列关系。
- 口语理解中的组合性推广
我们提出了一种基于组合性的口语语言理解模型,通过对位于有限训练数据上进行训练时学习到的模型组合性的两种类型(新颖的槽组合和长度概括)进行深入分析,我们克服了现有模型因训练时学习到的虚假槽相关性而在组合性问题上表现不佳的限制,进而在 ATIS - 学习推理技能中长度概括的条件
AI agents rely on reasoning, but large language models (LLMs) have limitations in their reasoning capabilities, particul - 转换器可以学习哪些算法?长度泛化研究
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了 Transformer 模型在特定任务上表现出的能力和方式。
- 从插值到外推:算术 Transformer 的完全长度概括
通过实验和注意力分析,我们研究了 transformer 模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度,并引入了 - 通过任务提示改进 Transformer 的长度泛化
使用任务提示的方法改善长度泛化问题,在经典的排序问题上验证了其有效性,并通过探测和可视化技术提出了模型学习行为的理论构建,进一步提高了模型在未知长度上的性能。
- ICML长度通用的单调位置注意力
本篇研究中,我们探讨了在序列到序列的网络中,利用基于位置的交叉注意力实现长度泛化的不同方法,并显示了插值原始编码和反向编码表示结合相对注意力的简单方法可以实现几乎完美的长度泛化
- 位置编码对 Transformer 中长度推广的影响
本文研究了基于解码器的 Transformer 模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE 的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE 能够代表绝对和相对位置嵌入,但在使用 SG - 大型语言模型中的长度泛化探究
该研究探讨了基于 transformer 的语言模型的长度推广能力,发现预训练大语言模型的上下文学习能力与记事本提示相结合能大大改善长度推广,并鉴别了错误的共同来源,为赋予语言模型推广到更长问题的能力提供了新的机会。