后戒断期：针对 QA 中已弃用实例的可靠重新尝试

ACLMay, 2023

后戒断期：针对 QA 中已弃用实例的可靠重新尝试

Post-Abstention: Towards Reliably Re-Attempting the Abstained Instances in QA

Neeraj Varshney, Chitta Baral

TL;DR本文提出一种 “Post-Abstention” 任务来增加自然语言处理系统的覆盖率并保持准确度，通过对 11 个 QA 数据集的全面实验证明，该方法可以显著提高性能指标。

Abstract

Despite remarkable progress made in natural language processing, even the state-of-the-art models often make incorrect predictions. Such predictions hamper the reliability of systems and limit their widespread ad

natural language processing selective prediction post-abstention accuracy reliability

发现论文，激发创造

选择性预测：降低视觉语言推理中的不必要弃权

通过推理时间算法减少选择性视觉语言系统的过度式避免并提高系统可靠性。

Feb, 2024

可靠的视觉问答：宁可弃而不答，不要错误作答

本文提出了一种可靠的视觉问答方法，通过多模态选择函数对预测的答案进行准确性估计，分析了 VQA 模型的覆盖率与风险之间的权衡；提出了一种有效的可靠性指标，相对于提供错误的答案，强制要求 VQA 模型进行更多的弃权表明其不知道问题的答案。

Apr, 2022

通过借鉴同行经验，提高有选择性的视觉问答能力

本文提出了一个使用 Learning from Your Peers 方法的多模式选择函数，以在不同分布的数据下实现选择性视觉问答，并在各种模型中取得了不错的表现。

Jun, 2023

科学问答中通过上下文扰动表征 LLM 回避行为

在这项研究中，我们研究了 LLMs 在提供不充分或不正确的上下文时放弃回答具有环境依赖性的科学问题的能力。通过在四个 QA 数据集上进行实验，我们展示了性能在模型之间、提供的上下文类型之间以及问题类型之间存在巨大的差异。我们的分析还突显了放弃回答表现对 QA 任务准确性的意外影响，表明需要改进 QA 数据集的设计和评估方法，以更有效地评估模型放弃回答的正确性和下游影响。

Apr, 2024

领域转移下的选择性问题回答

本文提出了一种选择性回答领域偏移下问题的设置，通过训练一个更好的模型来确定何时应该回答问题，以避免错误和不确定性。

Jun, 2020

弃权排名

我们介绍了一种新的排名框架，其中学习器可以以有限的代价 $c$ 放弃对某些预测的判断，并对这个框架进行了广泛的理论分析，包括一系列 $f$- 一致性边界，达到了此领域的最新理论保证水平，我们进一步提出，这种新的放弃策略在使用常见的等连续假设空间时显得尤为重要，我们还报告了实验结果，证明了带放弃策略的排名方法的有效性。

Jul, 2023

预测者 - 排斥者多类弃权：理论分析与算法

我们研究了多类别分类中的学习与弃权的关键框架，介绍了一系列新的理论和算法结果，提出了几个新的代理损失函数家族，并分析了单阶段和两阶段学习设置的保证和应用，证明了我们的代理损失的优越性，并展示了广泛适用的两阶段弃权算法的卓越性能。

Oct, 2023

通过测试的选择非参数回归

针对误差关键的机器学习应用中存在的可能放弃预测（或选择性预测）的问题，本研究在非参数异方差回归问题上提出了一种通过对给定点上的条件方差值进行假设检验的放弃过程。与已有方法不同，提出的方法不仅考虑方差本身的值，还考虑相应方差预测器的不确定性。我们对得出的估计器的风险证明了非渐进界限，并展示了多个不同的收敛模式。理论分析通过一系列的模拟和真实世界数据实验进行了说明。

Sep, 2023

走向可信的重新排名：一种简单且有效的弃权机制

神经信息检索 (NIR) 通过启发式的信息检索系统显著改进，但是仍然存在频繁的失败，通常所使用的模型无法检索与用户查询相关的文档。我们通过提出一个轻量级的针对现实约束的弃权机制，特别强调重新排名阶段，以解决这个挑战。我们在黑盒场景下介绍了一个评估弃权策略的协议，证明了其效果，并提出了一个简单而有效的数据驱动机制。我们提供了实验复现和弃权实现的开源代码，促进其在不同环境中的更广泛应用。

Feb, 2024

对弃权分类器进行反事实比较

通过将放弃预测视为缺失数据，本文提出了一种新的方法和角度来评估和比较弃权分类器，并借助观察因果推断的工具，开发了非参数和双重保守估计方法来有效地估计该数量。

May, 2023