关键词test set contamination
搜索结果 - 2
- LiveBench:一个具有挑战性和无污染的 LLM 基准测试
为了解决测试集污染和评估中的偏见问题,研究引入了一种新的测试基准 LiveBench,该基准通过包含来自最新信息源的问题和按照客观真实值自动评分的答案,来评估不同大小的封闭源和开源模型的能力。
- 在黑盒语言模型中证明测试集污染
通过无需预训练数据或模型权重的方法,我们可以提供对语言模型测试集污染的可证明保证,通过对典型排序的基准数据集的似然性进行比较,我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中,我们的测试发现很少有普遍污染的证据。