BriefGPT.xyz
Ask
alpha
关键词
long context
搜索结果 - 3
注意力排序在长上下文语言模型中对抗最近偏差
当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识:文本上下文中较早出现的相关信息平均上受到较少关注。然而,即使模型未能使用相关文档的信息来生成回答,它们在同一位置上
→
PDF
9 months ago
通过位置插值扩展大型语言模型的上下文窗口
本文介绍了一种名为 Position Interpolation 的方法,它扩展了 RoPE-based pretrained LLMs 的上下文窗口大小,可以达到 32768,而且只需要最小限度的微调,同时在需要长上下文的各种任务中(包括
→
PDF
a year ago
大鸟:面向更长序列的 Transformer
本文介绍了基于 Transformers 模型 (BERT) 的缺点,提出了一种新模型 BigBird,该模型采用稀疏注意机制以线性方式减少了模型中由全面关注机制导致的二次依赖性 (主要是内存),能够处理比以前长 8 倍长度的序列。因其能够
→
PDF
4 years ago
Prev
Next