事后反转:我们是否过早选择模型?
训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易,我们提出一种极其轻量级的事后方法,通过在验证集上求解约束优化问题并应用于模型,从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失,并带有可证明的保证和实证的结果证明,表明我们的方法非常适用于分布鲁棒的事后分类器。
Sep, 2023
在低资源环境下,本研究通过对预训练模型应用后验置信度估计方法,旨在解决语义分割中的分布偏移问题,并通过对三个医学影像任务进行实验,证明了后验置信度估计方法降低分布偏移影响的有效性。
Feb, 2024
提出了自适应随机权重平均(ASWA)技术,该技术结合了随机权重平均(SWA)和提前停止技术,仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中,结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。
Jun, 2024
通过使用简单的词袋分类器,我们发现最近的后续成员推理攻击 (MIAs) 研究中使用的数据集存在显著的分布偏移,这意味着先前报道的高 MIA 性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题,我们提出了回归不连续设计 (RDD) 方法来减轻分布偏移。在这种 RDD 设置下评估各种 MIA 方法的性能表现几乎与随机猜测相当,与先前报道的结果截然不同。总之,我们的研究结果凸显了准确衡量 LLM 记忆的挑战,以及在 (后续) 成员推理任务中需要仔细进行实验设计的必要性。
Jun, 2024
本文旨在解释提高小样本下的预训练语言模型的性能,发现未 fine-tune 的预训练模型表现出强烈的预测偏差,而 fine-tune 可以缓解预测偏差并展现出更好的性能,但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。
Apr, 2022
本文研究了自动化机器学习中的模型集成方法,比较了不同方法在不同的度量标准下的性能表现,探讨了如何避免在使用数值优化方法时产生过拟合。
Jul, 2023
本文介绍了一种简单高效的后验置信度估计器 - $p$-NormSoftmax,它可以大幅提高预训练模型的选择性分类性能,并在实验中证明了此方法的有效性。
May, 2023
本文提出一种简单的方法,用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性,发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释,我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征,这表明 QA 数据集中存在共享的偏见,同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。
May, 2023
该研究旨在界定预训练在处理数据分布偏移时可以解决的失败模式,发现预训练可以缓解数据外推问题,但对数据集偏见无效;研究结果指出,预训练和干扰同时使用可以增加模型的鲁棒性,也发现在小规模、非多样但去除偏见的数据集上进行微调可以得到比在大规模和多样但有偏见的数据集上进行微调更加鲁棒的模型。
Feb, 2024