BriefGPT.xyz
Ask
alpha
关键词
attention sorting
搜索结果 - 1
注意力排序在长上下文语言模型中对抗最近偏差
当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识:文本上下文中较早出现的相关信息平均上受到较少关注。然而,即使模型未能使用相关文档的信息来生成回答,它们在同一位置上
→
PDF
9 months ago
Prev
Next