模型相似性降低测试集过度使用
通过添加一小部分未见图片到训练集中,我们的方法可以降低训练与注释成本,提高监督式深度学习模型的泛化性能,并在动态环境中对未见数据的模型性能提供估计。
Aug, 2023
该研究提出了一种利用原始测试数据来检测过拟合的新方法,使用对抗性示例和重要性加权的无偏误差估计,尤其适用于多类图像分类模型在 ImageNet 基准测试上的过拟合检测。
Mar, 2019
本文研究大型语言模型中反复数据对性能的影响机理,并发现了一个强烈的双下降现象,即重复数据可能导致测试损失在训练中途上升。实验表明,反复数据对模型的性能造成了明显的损害,可能会导致模型从泛化到记忆出现转移。
May, 2022
通过在相似或多样化的源数据集上进行预训练,模型在利用迁移学习增强目标数据集的时间序列预测效率和准确性方面发挥关键作用。本研究通过对五个公开源数据集以及包括实际批发数据在内的五个目标数据集的预测结果进行系统评估,确认了基于特征的相似性和多样性度量对预测准确性、偏差和不确定性的影响。源 - 目标相似性提升了预测准确性并减少了偏差,而源多样性提高了预测准确性和不确定性估计,同时增加了偏差。
Apr, 2024
本文研究各机器学习子社区在 2015-2020 年期间数据集使用模式的差异,并发现技术社区对越来越少的数据集集中使用,大量采用来自其他任务的数据集,并集中于由少数精英机构研究者推出的数据集,从而对科学评估、人工智能伦理和公平性、以及领域内的平等 / 可接近性产生影响。
Dec, 2021
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
通过创建生命周期基准测试集,对过度依赖基准测试特异性的算法进行测试,通过引入基于动态规划算法的高效评估框架 Sort & Search(S&S)来降低评估成本,有效减少了计算成本并提供了对 “基准耗尽” 问题的可靠、实用解决方案。
Feb, 2024
通过提供第一个三类合成克隆模型(即有监督、自监督和多模态)的基准测试,我们发现现有的合成的自监督和多模态克隆模型在多种稳健性指标上与真实图像基线相媲美甚至超越,但合成克隆模型对对抗性噪声和真实世界噪声更加敏感,同时发现同时使用真实数据和合成数据可以进一步增加稳健性,并且生成合成图像的提示选择对合成克隆模型的稳健性起到重要作用。
May, 2024
本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型,使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集,通过估计数据漂移量建立了鲁棒性,并在多个基准数据集上进行了实验证明了该方法的重要性。
Aug, 2020