再三思考：衡量消除问答模型预测快捷方式的效率

ACLMay, 2023

再三思考：衡量消除问答模型预测快捷方式的效率

Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models

Lukáš Mikula, Michal Štefánik, Marek Petrovič, Petr Sojka

TL;DR本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

Abstract

While the large language models (LLMs) dominate a majority of language understanding tasks, previous work shows that some of these results are supported by modelling spurious correlations of training datasets. Authors commonly assess model →

large language models bias robustness debiasing question answering

发现论文，激发创造

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

您的精调大型语言模型已是强大的超分布检测器

通过重新审视预训练大型语言模型和其微调变体之间的似然比作为一种区分所需分布检测的标准，我们展示了似然比可以作为一种有效的 OOD 检测器，并将其应用于问题回答系统中以改善 LLMs 在一般问题上的性能。

Apr, 2024

自然语言理解中大型语言模型的快速学习：综述

本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Aug, 2022

大型语言模型的超出分布检测能力如何？

通过对大型语言模型进行实证研究，本文发现余弦距离的异常检测器表现出卓越的效力，优于其他异常检测器，并通过强调大型语言模型嵌入空间的各向同性特征，提供了对这一现象的有趣解释，进一步增强了我们对大型语言模型在检测异常数据方面的适应性和可靠性。

Aug, 2023

端到端自校准框架用于稳健的 NLU 训练

通过引入一种简单而有效的去偏置框架，利用主模型的浅层表示来推导一个偏置模型，并同时训练两个模型，我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性，尽管其简单性，但其在越界测试集上表现不俗，明显优于其他去偏执方法，并且仍然能够提供高性能的内分布结果。

Sep, 2021

指导学习者：基于 Token 归因相似性的专家产品去偏方法控制

该研究探讨了使用 Product of Experts 算法和 fine-tuning 策略在自然语言推理和事实验证基准测试上改善避免数据偏差的训练模型对于分布外 (out-of-distribution) 数据的效果。

Feb, 2023

从少量样例评估领域外语言模型性能

本研究旨在探索预训练语言模型对领域转移能力的预测，并证明基于特征归因的因子对于预测模型领域转移能力具有一定的作用。

Oct, 2022

探索用于多模态离域检测的大型语言模型

应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能，通过从每个图像提取视觉对象充分利用前述世界知识，充分实验证明本方法始终优于现有技术。

Oct, 2023

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试，该基准用于评估自然语言处理模型中的 OOD 鲁棒性，在 13 个公开可用的 OOD 测试数据集上验收模型，发现模型在 OOD 任务上的性能明显下降，对提高模型鲁棒性提供了一些见解和改进方案。

Nov, 2022