May, 2023

预训练模型训练数据指南:测量数据的年龄、领域覆盖、质量和毒性的影响

TL;DR对预训练数据合理性进行了研究,为语言模型开发做出了数据方面的决策提供支持。