BriefGPT.xyz
Ask
alpha
关键词
long-term contexts
搜索结果 - 2
深呼吸:用哨兵标记增强大型语言模型的语言建模
我们提出了一种简单而有效的方法,通过将文本分割成多个块并在每个块的末尾插入特殊标记 <SR>,修改注意力掩码以将块的信息整合到相应的 <SR> 标记中,从而使 LLMs 能够从历史上的个别标记以及 <SR> 标记中解释信息,从而汇集块的语义
→
PDF
20 days ago
使用深度自注意力进行字符级语言建模
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超
→
PDF
6 years ago
Prev
Next