Jul, 2023

聚焦 Transformer:上下文缩放的对比训练

TL;DR提出了一种名为 Focused Transformer(FoT)的技术,通过对称的学习过程来增强(键,值)空间的结构,从而提供更长的上下文长度,有效地解决了大型语言模型在处理长文本时的局限性。