Feb, 2024

泛化还是记忆:大型语言模型的数据污染与可信评估

TL;DR我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD,并通过修正 LLMs 输出分布的方法 TED,有效地检测和减轻数据污染的影响。实验结果表明,CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8%-30.2%,TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9%。实际应用中,我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。