BriefGPT.xyz
Ask
alpha
关键词
masked-span prediction task
搜索结果 - 1
调整预训练的文本 - 文本模型以适应长文本序列
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员
→
PDF
2 years ago
Prev
Next