关键词pretraining corpora
搜索结果 - 3
  • Dolma: 一个包含三万亿标记的开放语料库,用于语言模型预训练研究
    PDF5 months ago
  • 当少即是多:探究大规模预训练 LLMs 的数据修剪
    PDF10 months ago
  • 从零到英雄:多语言 Transformer 的零 - shot 跨语言转移限制
    PDF4 years ago
Prev
Next