事后反转：我们是否过早选择模型？

Apr, 2024

事后反转：我们是否过早选择模型？

Post-Hoc Reversal: Are We Selecting Models Prematurely?

PDF

Rishabh Ranjan, Saurabh Garg, Mrigank Raman, Carlos Guestrin, Zachary Chase Lipton

TL;DR在这篇文章中，作者提出了后企业行的选择技术，通过后企业行指标在模型开发决策中，如早停，检查点和更广的超参数选择，对模型进行指导。

Abstract

Trained models are often composed with post-hoc transforms such as temperature scaling (TS), ensembling and →

post-hoc transforms temperature scaling ensembling stochastic weight averaging post-hoc reversal

发现论文，激发创造

不消除而是综合：对混合专家进行事后控制以应对自然语言理解中的快捷转移

通过对混合专家的悲观聚合，可以增强模型对快捷方式分布变化的鲁棒性。

Jun, 2024

先验转移下的分布鲁棒事后分类器

训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易，我们提出一种极其轻量级的事后方法，通过在验证集上求解约束优化问题并应用于模型，从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失，并带有可证明的保证和实证的结果证明，表明我们的方法非常适用于分布鲁棒的事后分类器。

Sep, 2023

基于事后置信度估计的语义分割的选择性预测及其在分布偏移下的性能

在低资源环境下，本研究通过对预训练模型应用后验置信度估计方法，旨在解决语义分割中的分布偏移问题，并通过对三个医学影像任务进行实验，证明了后验置信度估计方法降低分布偏移影响的有效性。

Feb, 2024

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

大型语言模型的事后成员推断的固有挑战

通过使用简单的词袋分类器，我们发现最近的后续成员推理攻击 (MIAs) 研究中使用的数据集存在显著的分布偏移，这意味着先前报道的高 MIA 性能可能主要归因于这些偏移而不是模型的记忆。为了解决这个问题，我们提出了回归不连续设计 (RDD) 方法来减轻分布偏移。在这种 RDD 设置下评估各种 MIA 方法的性能表现几乎与随机猜测相当，与先前报道的结果截然不同。总之，我们的研究结果凸显了准确衡量 LLM 记忆的挑战，以及在 (后续) 成员推理任务中需要仔细进行实验设计的必要性。

Jun, 2024

预训练语言模型在少样本微调中的问题

本文旨在解释提高小样本下的预训练语言模型的性能，发现未 fine-tune 的预训练模型表现出强烈的预测偏差，而 fine-tune 可以缓解预测偏差并展现出更好的性能，但研究还在探讨如何平衡预测行为和开发有利于小样本学习的模型评估方法。

Apr, 2022

使用 CMA-ES 进行后续集成的 AutoML：成就与挽救失败

本文研究了自动化机器学习中的模型集成方法，比较了不同方法在不同的度量标准下的性能表现，探讨了如何避免在使用数值优化方法时产生过拟合。

Jul, 2023

通过后续逻辑归一化和温度缩放改善深度神经网络的选择分类表现

本文介绍了一种简单高效的后验置信度估计器 - $p$-NormSoftmax，它可以大幅提高预训练模型的选择性分类性能，并在实验中证明了此方法的有效性。

May, 2023

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

询问您的分布偏移是否适合预训练

该研究旨在界定预训练在处理数据分布偏移时可以解决的失败模式，发现预训练可以缓解数据外推问题，但对数据集偏见无效；研究结果指出，预训练和干扰同时使用可以增加模型的鲁棒性，也发现在小规模、非多样但去除偏见的数据集上进行微调可以得到比在大规模和多样但有偏见的数据集上进行微调更加鲁棒的模型。

Feb, 2024