Feb, 2024

数据污染与评估不端行为在闭源语言模型中的重复现象

TL;DR使用 OpenAI 的 GPT-3.5 进行了首次系统分析,揭示其在数据污染方面的问题,发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准,并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。