不消除而是综合：对混合专家进行事后控制以应对自然语言理解中的快捷转移

ACLJun, 2024

不消除而是综合：对混合专家进行事后控制以应对自然语言理解中的快捷转移

Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding

PDF

Ukyo Honda, Tatsushi Oka, Peinan Zhang, Masato Mita

TL;DR通过对混合专家的悲观聚合，可以增强模型对快捷方式分布变化的鲁棒性。

Abstract

Recent models for natural language understanding are inclined to exploit simple patterns in datasets, commonly known as shortcuts. These shortcuts hinge on →

shortcuts spurious correlations latent features distribution shift mixture-of-experts

发现论文，激发创造

针对自然语言理解模型的捷径学习行为进行解释和缓解

本文研究表明，NLU 模型倾向于依赖于快捷特征进行预测，而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布，进一步提出了一种量化每个训练样例快捷程度的方法，并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR，实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力，同时保持在分布数据上的准确性。

Mar, 2021

先验转移下的分布鲁棒事后分类器

训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易，我们提出一种极其轻量级的事后方法，通过在验证集上求解约束优化问题并应用于模型，从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失，并带有可证明的保证和实证的结果证明，表明我们的方法非常适用于分布鲁棒的事后分类器。

Sep, 2023

事后反转：我们是否过早选择模型？

在这篇文章中，作者提出了后企业行的选择技术，通过后企业行指标在模型开发决策中，如早停，检查点和更广的超参数选择，对模型进行指导。

Apr, 2024

利用辅助标签的因果推理式快捷方式消除

通过使用辅助标签并强制执行因果图所隐含的条件独立性，鼓励学习不依赖于简便但不可靠关联的预测模型的灵活、因果驱动的方法是一种训练鲁棒预测器的方式。我们展示了这种因果驱动的正则化方案导致更加健壮的估计器，在分布转移下具有良好的泛化和更好的有限样本效率，即使没有简捷方式存在。

May, 2021

皮尔斯机器：专家模型如何执行假设构建

混合专家是一种机器学习中的预测聚合方法，通过聚合专业专家的预测结果来优化性能，尽管贝叶斯方法在归纳推理方面更有保障，但我们认为混合专家具有更大的功能能力。通过对非限制案例的实验，我们证明在混合专家的极限情况下将比等效的贝叶斯方法具有更大的容量，并最终得出结论：混合专家是一种按照皮尔斯理论中的假设构造的归纳推理方法。

Jun, 2024

不要怪罪数据集偏移！梯度和交叉熵导致的快捷学习

对于感知任务而言，默认的 ERM 的隐含归纳偏差偏向于最大化边界学习模型，该偏差通过鼓励均匀边界解决方案可以消除 shortcut 学习，并在视觉和语言任务中证明更好的归纳偏差可以消除费时的两阶段 shortcut 缓解方法。

Aug, 2023

基于置信度的模型选择：何时为子集群转移采取捷径

本文提出 COnfidence-baSed MOdel Selection（CosMoS）方法，基于模型置信度动态选择不同强度的模型来在多数和少数子群体上实现高性能，并使用多个数据集验证其性能。

Jun, 2023

控制学习效应以减少文本分类器中的错综相关性

本文提出了一种利用因果推断的方法实现自动化数据增强，从而减少机器学习模型学习特征和标签之间虚假相关性的问题，并在毒性数据集和 IMDB 评论数据集上得到了明显提升。

May, 2023

使用互信息监控快捷学习

研究深度神经网络在超出分布数据的泛化失败问题，提出使用互信息作为度量标准，监测快捷学习现象。

Jun, 2022

基于词组搜索的自动对抗样本增强方法用于文本分类鲁棒性提升

本文提出一种新的基于词组挖掘的方法，用于解决大规模预训练语言模型的词汇捷径问题，建立反事实的语义增强机制并应用自适应投票机制，能够更准确地识别有效的因果特征，进而提升模型的分类效果。

Jul, 2023