揭示神经代码模型中的项目特定偏见
该研究探讨了使用 Product of Experts 算法和 fine-tuning 策略在自然语言推理和事实验证基准测试上改善避免数据偏差的训练模型对于分布外 (out-of-distribution) 数据的效果。
Feb, 2023
本文提出 POORE - POsthoc pseudo-Ood REgularization 框架,通过在内部数据中生成伪 OOD 数据进行 fine-tune,通过引入新的正则化损失来分离 IND 和 OOD 数据的嵌入,提高了 OOD 预测任务的准确度,相较现有方法在三个实际对话系统上获得了最新的技术进展。
Oct, 2022
本文提出一种简单的方法,用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性,发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释,我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征,这表明 QA 数据集中存在共享的偏见,同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。
May, 2023
研究发现神经网络训练过程中存在简单性偏差,该偏差导致其缺乏鲁棒性,但该问题可通过不同方式训练来缓解,其中包括使用梯度对齐的惩罚项进行训练,以及在独立的模型选择阶段解决信息不足问题,此方法在视觉识别上获得了最佳结果。
May, 2021
提出一种名为 “Projection Norm” 的度量标准来预测模型在无标签真实标签的情况下对 ODD 数据的性能,这种方法使用伪标签来训练新的模型并与所谓的 输入数据分布模型进行比较以进行预测。该方法在图像和文本分类任务以及不同网络架构上都优于现有方法,并且在理论上将该方法与超参数化线性模型的测试误差的界限相连。此外,发现 “Projection Norm” 是唯一实现对对抗性样本检测非平凡性能的方法。
Feb, 2022
通过引入一种简单而有效的去偏置框架,利用主模型的浅层表示来推导一个偏置模型,并同时训练两个模型,我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性,尽管其简单性,但其在越界测试集上表现不俗,明显优于其他去偏执方法,并且仍然能够提供高性能的内分布结果。
Sep, 2021
通过比较测试图像与其基于扩散模型的投影之间的感知距离以检测异常,Projection Regret (PR) 是一种有效的新颖性检测方法,通过与递归投影进行比较来取消背景偏差,实验证明 PR 在生成模型为基础的新颖性检测方法方面明显优于现有技术。
Dec, 2023
本研究提出了 CODE 方法,它是一种可解释人工智能领域的扩展工作,用于识别类别特定的重复模式,以构建强大的用于视觉分类器的离群检测方法。CODE 不需要对分类器进行重新训练,且与离群分布无关,直接针对训练数据集进行调优。关键在于模式识别,使得我们能够提供来自内部分布数据集的图像作为参考数据,为置信度提供额外的上下文。此外,我们还引入了一种基于内部分布数据集的扰动的新基准,作为内部分布和离群分布数据集之间差异的已知可量化度量值,以用于比较离群检测方法。
Oct, 2023
通过减少模型对虚假相关性的依赖,我们提出了一个基于逆概率加权的通用去偏方法,以提升多模态情感分析模型的超出分布泛化能力。通过解耦每种模态的鲁棒特征和偏倚特征,并利用偏倚特征估计偏倚,我们使用逆概率加权来减少对大偏倚样本的影响,从而促进情感预测的鲁棒特征学习。实证结果证明了我们提出的框架具有优越的泛化能力。
Jul, 2023
这篇论文集中在最后的卷积层输出的高维特征上,通过将这些高维特征投影到两个具体的特征子空间,借助网络的线性层的降维能力来识别产生在训练分布之外的数据,从而实现可靠的模式分类检测。我们的方法不需要输入预处理或特定的数据预调优,通过修改全连接层之前的批归一化和 ReLU 层,减小它们对输出特征分布的影响,扩大了 ID 和 OOD 数据特征之间的分布差距,并在多个基准数据集上进行了广泛实验,展示出最先进的性能。
May, 2024