在 IID、OOD 和对抗环境中研究不同任务的选择性预测方法

ACLMar, 2022

在 IID、OOD 和对抗环境中研究不同任务的选择性预测方法

Investigating Selective Prediction Approaches Across Several Tasks in IID, OOD, and Adversarial Settings

Neeraj Varshney, Swaroop Mishra, Chitta Baral

TL;DR本研究通过对多个 NLP 任务的 17 个数据集进行实验表明，对于具有选择性预测能力的 NLP 系统，尽管其利用了额外的资源，但现有的方法并不能始终在所有数据领域（IID）, 数据领域外（OOD）和对抗性（ADV）的场景下显着优于最简单的基线 'MaxProb'，且这些方法的表现在任务之间的转化性不好，因此建议应该跨任务和场景评估未来的选择性预测方法以可靠地评估它们的能力。

Abstract

In order to equip NLP systems with selective prediction capability, several task-specific approaches have been proposed. However, which approaches work best across tasks or even if they consistently outperform the simplest baseline '→

selective prediction nlp tasks maxprob monte-carlo dropout evaluation

发现论文，激发创造

提高 NLP 系统的选择性预测能力

本文介绍了一种通过使用预测置信度和难度分数来校准模型的概率估计方法，并基于此方法进行了自然语言推理和重复检测任务的实验，结果表明我们的校准器在 NLI 和 DD 任务中分别提高了 15.81％和 6.19％的准确率。

Aug, 2020

通过借鉴同行经验，提高有选择性的视觉问答能力

本文提出了一个使用 Learning from Your Peers 方法的多模式选择函数，以在不同分布的数据下实现选择性视觉问答，并在各种模型中取得了不错的表现。

Jun, 2023

神经 NLP 模型外分布评估的调查

本综述论文比较了对神经自然语言处理模型的三种研究途径：对抗鲁棒性、领域泛化和数据集偏差，并总结了每条研究路径的数据生成过程和评估协议，并强调未来工作的挑战和机遇。

Jun, 2023

拒绝选项模型包含的分布外检测

本研究提出了三种拒绝选项模型和双分数 OOD 方法，以及与之配套的新评估指标，它们能够显著提高除错分类和未知样本特征识别任务中的性能。

Jul, 2023

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

文本分类任务中传统的外部分布检测方法的基准测试

本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性，对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题，发现现有方法对于各类型分布偏移的检测敏感性不够，在领域内文本中存在令人困惑的测试场景，而需要开发更有效的 OOD 检测方法，本文为未来的研究提供了一个良好的、定义明确的基础。

Jul, 2023

SCOD: 从启发式到理论

在存在外部样本时面临选择性分类问题的可靠预测模型的设计，我们提出了三个关键贡献。首先，我们证明最优的 SCOD 策略采用了贝叶斯分类器用于分布内数据和一个在二维空间表示为随机线性分类器的选择器，利用了分布内分类器的条件风险和分布内外数据的似然比作为输入，与当前的分布外检测方法和专门针对 SCOD 开发的 Softmax 信息保留组合（SIRC）方法的次优策略不同。其次，我们证明在一个无分布设置下，只依赖分布内数据样本时 SCOD 问题无法以近似正确学习。第三，我们引入了 POSCOD，一种简单的方法，从分布内数据样本和无标签的分布内外数据混合中学习最优 SCOD 策略的插件估计。我们的实证结果验证了理论发现，并证明我们提出的方法 POSCOD 在有效解决 SCOD 问题上优于现有的分布外方法。

Mar, 2024

自我评估适配提高 LLMs 的选择性预测能力

基于自评估的自适应选可信度模型，通过使用参数高效调整适应大型语言模型到特定任务，提高其自评估能力，以改善选择性预测性能。在多种问答数据集上的评估结果显示，该方法优于现有的选择预测方法。

Oct, 2023

利用 softmax 信息对于外部数据进行选择性分类的扩充

本研究针对在深度学习中的视觉识别任务中所出现的 out-of-distribution (OOD) 数据进行了检测，提出了一种基于 softmax 信息保留组合（SIRC）的分类方法，在不影响对 in-distribution 数据（ID）的正确预测的同时，可以提高识别 OOD 数据的准确率，实验表明 SIRC 可以在保证 SCOD 任务上表现较好，而已有的 OOD 检测方法则不如其表现。

Jul, 2022

文本分类中的外域泛化：过去、现在和未来

本篇研究论文探讨了自然语言处理中机器学习系统在处理超出标准数据集范畴的数据时的适用性，并在文本分类中研究了其可靠性及可能存在的偏差。此外，本文对该主题的最新进展、方法和评估进行了综述，并讨论了涉及的挑战和未来的研究方向。

May, 2023