BriefGPT.xyz
大模型
Ask
alpha
关键词
pretraining corpora
搜索结果 - 3
Dolma: 一个包含三万亿标记的开放语料库,用于语言模型预训练研究
释放 Dolma,这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包,以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节
→
PDF
5 months ago
当少即是多:探究大规模预训练 LLMs 的数据修剪
通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化,我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下,改进我们的基准模
→
PDF
10 months ago
从零到英雄:多语言 Transformer 的零 - shot 跨语言转移限制
分析了 massively multilingual transformers 在零射击跨语言场景中的局限性,并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验,确立了
→
PDF
4 years ago
Prev
Next