一致性与不确定性：从黑盒视觉语言模型中鉴别不可靠的响应，以进行选择性视觉问答

CVPRApr, 2024

一致性与不确定性：从黑盒视觉语言模型中鉴别不可靠的响应，以进行选择性视觉问答

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering

PDF

Zaid Khan, Yun Fu

TL;DR在黑盒子中研究选择性预测，使用邻域一致性原则识别可靠性低的图像 - 语言模型在问答任务中的响应。

Abstract

The goal of selective prediction is to allow an a model to abstain when it may not be able to deliver a reliable prediction, which is important in safety-critical contexts. Existing approaches to selective prediction

selective prediction black-box models neighborhood consistency vision-language models unreliable responses

发现论文，激发创造

选择性预测：降低视觉语言推理中的不必要弃权

通过推理时间算法减少选择性视觉语言系统的过度式避免并提高系统可靠性。

Feb, 2024

通过借鉴同行经验，提高有选择性的视觉问答能力

本文提出了一个使用 Learning from Your Peers 方法的多模式选择函数，以在不同分布的数据下实现选择性视觉问答，并在各种模型中取得了不错的表现。

Jun, 2023

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

合规化选择回归

通过利用针对模型特定偏差提供基于置信度的个体预测的坚实的置信度度量，我们提出了一种新的选择回归方法，并提出了一个标准化的评估框架，通过广泛的实验方法证明了我们的方法在多个最先进的基准测试中的优势。

Feb, 2024

更准确的开放式回答的自洽解码

通过将多个样本与先前的选择相结合，基于简单的令牌重叠评分，我们将 “Sample & Select” 方法与其他几种解码算法进行比较，证明其在基于 NLI 的 CNN/DM 和 XSum 子集的 FRANK 基准测试中，相对于其他解码算法（DoLA、P-CRR 和 S-CRR）提高了 30% 的事实性，而对参考摘要维持可比的 ROUGE-1 F1 得分，并通过对生成摘要的人工验证进一步证实了我们方法的事实优越性。

Mar, 2024

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023

使用大型语言模型的共形预测在多项选择题回答中的应用

探讨如何利用符合性预测方法对大型语言模型进行不确定性量化，以提高其在多选题答题等任务中的可靠性及稳定性。研究发现，符合性预测所估计的不确定性与模型的预测准确性存在密切关联，这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨了符合性预测对于超出问题领域的问题的处理方法。本工作旨在为大型语言模型在安全关键性场景中提供更加可信和可靠的使用保障。

May, 2023

走向因果 VQA：通过不变量和协变语义编辑揭示和减少虚假相关

本文讨论了一种新的方法，可以分析和衡量 Visual Question Answering 模型的稳健性，同时提出了使模型更具鲁棒性的方法，包括自动化的语义图像操作，和测试模型预测的一致性，生成合成数据来解决这些问题，实验结果表明，通过我们编辑的数据，模型的不一致预测显著减少，对于各种有挑战性的计数问题，我们对三种不同类型的最先进的 VQA 模型进行了分析，最终结果同样能够很好地应用于实际误差案例中，从而实现整体性能的提高。

Dec, 2019