Feb, 2024

通过机器学习去除预训练数据对大型语言模型的影响解析

TL;DR通过对 LLMs 的 48 个数据集进行系统分析,我们测量了它们对 LLMs 的性能的影响,并研究了它们之间的相关关系,从而为更有效的 LLMs 预训练提供了洞见。