BriefGPT.xyz
Ask
alpha
关键词
context length scaling
搜索结果 - 1
面向扩展语言模型至 128K 上下文的数据工程
本研究探讨使用持续预训练重现将语言模型的上下文长度扩展到 128K,重点关注数据工程。我们假设长篇背景建模,特别是 “能够在任意输入位置利用信息” 的能力在大规模预训练中已经获得,而且这种能力可以通过对适当数据混合进行轻量级持续预训练来延伸
→
PDF
5 months ago
Prev
Next