Aug, 2023

LLMs 内的时间旅行:追踪大型语言模型中的数据污染

TL;DR在理解大型语言模型(LLM)对其他任务的有效性中,数据污染(即,在训练数据中存在来自下游任务的测试数据)可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染,该方法通过识别来自小型随机样本的个别实例中的潜在污染,然后评估整个数据集分区是否受到了污染。