不消除而是综合:对混合专家进行事后控制以应对自然语言理解中的快捷转移
本文研究表明,NLU 模型倾向于依赖于快捷特征进行预测,而不是真正理解语言。我们发现 NLU 训练集中的单词可以被建模为长尾分布,进一步提出了一种量化每个训练样例快捷程度的方法,并基于此提出了一个缓解快捷特征对模型训练的影响的框架 LTGR,实验结果表明这种方法可以提高模型对 OOD 数据的泛化能力,同时保持在分布数据上的准确性。
Mar, 2021
训练模型以适应由类先验或群组先验的分布变化引起的偏移问题并不容易,我们提出一种极其轻量级的事后方法,通过在验证集上求解约束优化问题并应用于模型,从而在测试时尽量减小选定目标分布周围的分布鲁棒性损失,并带有可证明的保证和实证的结果证明,表明我们的方法非常适用于分布鲁棒的事后分类器。
Sep, 2023
通过使用辅助标签并强制执行因果图所隐含的条件独立性,鼓励学习不依赖于简便但不可靠关联的预测模型的灵活、因果驱动的方法是一种训练鲁棒预测器的方式。我们展示了这种因果驱动的正则化方案导致更加健壮的估计器,在分布转移下具有良好的泛化和更好的有限样本效率,即使没有简捷方式存在。
May, 2021
混合专家是一种机器学习中的预测聚合方法,通过聚合专业专家的预测结果来优化性能,尽管贝叶斯方法在归纳推理方面更有保障,但我们认为混合专家具有更大的功能能力。通过对非限制案例的实验,我们证明在混合专家的极限情况下将比等效的贝叶斯方法具有更大的容量,并最终得出结论:混合专家是一种按照皮尔斯理论中的假设构造的归纳推理方法。
Jun, 2024
对于感知任务而言,默认的 ERM 的隐含归纳偏差偏向于最大化边界学习模型,该偏差通过鼓励均匀边界解决方案可以消除 shortcut 学习,并在视觉和语言任务中证明更好的归纳偏差可以消除费时的两阶段 shortcut 缓解方法。
Aug, 2023
本文提出 COnfidence-baSed MOdel Selection(CosMoS)方法,基于模型置信度动态选择不同强度的模型来在多数和少数子群体上实现高性能,并使用多个数据集验证其性能。
Jun, 2023
本文提出了一种利用因果推断的方法实现自动化数据增强,从而减少机器学习模型学习特征和标签之间虚假相关性的问题,并在毒性数据集和 IMDB 评论数据集上得到了明显提升。
May, 2023
本文提出一种新的基于词组挖掘的方法,用于解决大规模预训练语言模型的词汇捷径问题,建立反事实的语义增强机制并应用自适应投票机制,能够更准确地识别有效的因果特征,进而提升模型的分类效果。
Jul, 2023