Feb, 2024
通过机器学习去除预训练数据对大型语言模型的影响解析
Deciphering the lmpact of Pretraining Data on Large Language Models through Machine Unlearning
Yang Zhao, Li Du, Xiao Ding, Kai Xiong, Zhouhao Sun...
TL;DR通过对 LLMs 的 48 个数据集进行系统分析,我们测量了它们对 LLMs 的性能的影响,并研究了它们之间的相关关系,从而为更有效的 LLMs 预训练提供了洞见。