模型相似性降低测试集过度使用

May, 2019

Model Similarity Mitigates Test Set Overuse

Horia Mania, John Miller, Ludwig Schmidt, Moritz Hardt, Benjamin Recht

TL;DR本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

Abstract

Excessive reuse of test data has become commonplace in today's machine learning workflows. Popular benchmarks, competitions, industrial scale tuning, among other applications, all involve test data reuse beyond guidance by statistical →

test data reuse machine learning workflows similarity of predictions generalization bound confidence bounds

发现论文，激发创造

揭示潜在模式：研究数据集相似性、性能和泛化

通过添加一小部分未见图片到训练集中，我们的方法可以降低训练与注释成本，提高监督式深度学习模型的泛化性能，并在动态环境中对未见数据的模型性能提供估计。

Aug, 2023

通过对抗性样本检测过拟合

该研究提出了一种利用原始测试数据来检测过拟合的新方法，使用对抗性示例和重要性加权的无偏误差估计，尤其适用于多类图像分类模型在 ImageNet 基准测试上的过拟合检测。

Mar, 2019

重复数据学习的可解释性和缩放定律

本文研究大型语言模型中反复数据对性能的影响机理，并发现了一个强烈的双下降现象，即重复数据可能导致测试损失在训练中途上升。实验表明，反复数据对模型的性能造成了明显的损害，可能会导致模型从泛化到记忆出现转移。

May, 2022

自动化数据集更新以实现可靠和及时评估

通过自动化数据集更新以可靠且及时进行评估，来解决大型语言模型面临的评估挑战及数据泄漏问题。

Feb, 2024

数据集相似性和多样性对时序预测中的迁移学习成功的影响

通过在相似或多样化的源数据集上进行预训练，模型在利用迁移学习增强目标数据集的时间序列预测效率和准确性方面发挥关键作用。本研究通过对五个公开源数据集以及包括实际批发数据在内的五个目标数据集的预测结果进行系统评估，确认了基于特征的相似性和多样性度量对预测准确性、偏差和不确定性的影响。源 - 目标相似性提升了预测准确性并减少了偏差，而源多样性提高了预测准确性和不确定性估计，同时增加了偏差。

Apr, 2024

机器学习研究中数据集的生命周期：减少、重复利用和循环利用

本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异，并发现技术社区对越来越少的数据集集中使用，大量采用来自其他任务的数据集，并集中于由少数精英机构研究者推出的数据集，从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。

Dec, 2021

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

终身基准：快速进展时代中高效的模型评估

通过创建生命周期基准测试集，对过度依赖基准测试特异性的算法进行测试，通过引入基于动态规划算法的高效评估框架 Sort & Search（S&S）来降低评估成本，有效减少了计算成本并提供了对 “基准耗尽” 问题的可靠、实用解决方案。

Feb, 2024

合成数据是否足够？基于合成图像训练模型的稳健性评估

通过提供第一个三类合成克隆模型（即有监督、自监督和多模态）的基准测试，我们发现现有的合成的自监督和多模态克隆模型在多种稳健性指标上与真实图像基线相媲美甚至超越，但合成克隆模型对对抗性噪声和真实世界噪声更加敏感，同时发现同时使用真实数据和合成数据可以进一步增加稳健性，并且生成合成图像的提示选择对合成克隆模型的稳健性起到重要作用。

May, 2024

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020