指导学习者：基于 Token 归因相似性的专家产品去偏方法控制

ACLFeb, 2023

指导学习者：基于 Token 归因相似性的专家产品去偏方法控制

Guide the Learner: Controlling Product of Experts Debiasing Method Based on Token Attribution Similarities

Ali Modarressi, Hossein Amirkhani, Mohammad Taher Pilehvar

TL;DR该研究探讨了使用 Product of Experts 算法和 fine-tuning 策略在自然语言推理和事实验证基准测试上改善避免数据偏差的训练模型对于分布外 (out-of-distribution) 数据的效果。

Abstract

Several proposals have been put forward in recent years for improving out-of-distribution (OOD) performance through mitigating dataset biases. A popular workaround is to train a robust model by re-weighting train

out-of-distribution performance dataset biases robust model product of experts natural language inference

发现论文，激发创造

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

使用预训练转换器的伪异常值暴露进行对外分布检测

我们提出了一种名为 Pseudo Outlier Exposure（POE）的简单但有效的方法，通过顺序遮盖与 ID 类相关的令牌来构建一个替代性的 OOD 数据集，该替代性 OOD 样本与 ID 数据具有相似的表示，可以在训练拒绝网络方面发挥最有效的作用，与最先进的算法进行全面比较，在几个文本分类基准测试中证明了 POE 的竞争力。

Jul, 2023

鲁棒语言模型的伪 OOD 训练

本文提出 POORE - POsthoc pseudo-Ood REgularization 框架，通过在内部数据中生成伪 OOD 数据进行 fine-tune，通过引入新的正则化损失来分离 IND 和 OOD 数据的嵌入，提高了 OOD 预测任务的准确度，相较现有方法在三个实际对话系统上获得了最新的技术进展。

Oct, 2022

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

揭示神经代码模型中的项目特定偏见

该研究表明，在跨项目的分布设置中，神经编码模型对特定于项目的令牌的依赖性导致了它的局限性，并提出了 Batch Partition Regularization 机制来解决这个问题。

Jan, 2022

通过自然语言理解中的偏见专家来改进偏见缓解

通过引入偏见专家（bias experts），我们提出了一个新的去偏框架，改善了辅助模型的偏见识别能力，并且在各种挑战性数据集上始终优于现有技术水平。

Dec, 2023

从少量样例评估领域外语言模型性能

本研究旨在探索预训练语言模型对领域转移能力的预测，并证明基于特征归因的因子对于预测模型领域转移能力具有一定的作用。

Oct, 2022

超越马氏距离评分的文本 OOD 检测方法

该论文介绍了一个新的用于识别分布转移的未监督 OOD 检测器 TRUSTED，它基于变压器架构和数据深度的概念，实现了高效计算和最好的性能，能够有效地提高深度学习在实际应用中对于自然语言处理系统的适用性。

Nov, 2022

规避简化偏差：训练多样化模型集发现具有更优越 OOC 普适性的解决方案

研究发现神经网络训练过程中存在简单性偏差，该偏差导致其缺乏鲁棒性，但该问题可通过不同方式训练来缓解，其中包括使用梯度对齐的惩罚项进行训练，以及在独立的模型选择阶段解决信息不足问题，此方法在视觉识别上获得了最佳结果。

May, 2021

通过对抗训练和预训练改进 OOD 泛化

本文利用 Wasserstein 距离定义了 out-of-distribution（OOD）一般化，理论上证明对输入扰动具有鲁棒性的模型可以在 OOD 数据上一般化；在图像分类和自然语言理解任务上进行了实证验证，并进一步理论证明了在预训练和微调范式中，更具扰动输入鲁棒性的预训练模型可以更好地初始化在下游 OOD 数据的泛化，实验证明在经过微调后，这种通过对抗训练预训练的更好初始化的模型也有更好的 OOD 一般化。

May, 2021