BriefGPT.xyz
Ask
alpha
关键词
evaluation malpractices
搜索结果 - 1
数据污染与评估不端行为在闭源语言模型中的重复现象
使用 OpenAI 的 GPT-3.5 进行了首次系统分析,揭示其在数据污染方面的问题,发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准,并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。
PDF
5 months ago
Prev
Next