Jan, 2024

探究预训练语言模型的数据污染

TL;DR本文研究了语言模型在预训练阶段遭受数据污染的影响,探索了文本污染和真实数据污染对模型性能的影响,调查了不同下游任务中污染的重复效应,并指出了当前 LLM 报告中关于污染定义的局限性和不足之处。研究结果为了解数据污染对语言模型的影响提供了新的见解,并强调在 LLM 研究中进行独立、全面的污染评估的必要性。