Jul, 2023
聚焦 Transformer:上下文缩放的对比训练
Focused Transformer: Contrastive Training for Context Scaling
Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski...
TL;DR提出了一种名为 Focused Transformer(FoT)的技术,通过对称的学习过程来增强(键,值)空间的结构,从而提供更长的上下文长度,有效地解决了大型语言模型在处理长文本时的局限性。