关键词contamination analysis
搜索结果 - 2
- Llama 系列模型的开源数据污染报告
该研究报告介绍了 Llama 系列模型的开源数据污染报告,对六个热门的多项选择问答基准进行了分析,量化了它们与 Llama 的训练集的重叠情况。发现基准中存在 1% 至 8.7% 不同程度的污染。比较还显示,与干净的子集相比,Llama 模 - 通过困惑度估计污染情况:量化语言模型评估中的记忆效应
最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题,而现有的污染分析方法需要访问完整的训练数据,这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染,通过困惑度来衡量污染程度,相关分析显示近期基础模型