Aug, 2023
D4: 通过文档去重和多样化提升 LLM 预训练
D4: Improving LLM Pretraining via Document De-Duplication and Diversification
Kushal Tirumala, Daniel Simig, Armen Aghajanyan, Ari S. Morcos
TL;DR通过预先训练模型的嵌入,精心选择数据可加速训练并提高自然语言处理任务的下游准确性,进而对语言模型的预训练方法和性能产生质疑,并展示了在超大规模模型上持续改进模型的可能路径。