一致性与不确定性:从黑盒视觉语言模型中鉴别不可靠的响应,以进行选择性视觉问答
本文提出了一个使用 Learning from Your Peers 方法的多模式选择函数,以在不同分布的数据下实现选择性视觉问答,并在各种模型中取得了不错的表现。
Jun, 2023
该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量,提出几个置信度 / 不确定度统计度量标准,并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。
May, 2023
通过利用针对模型特定偏差提供基于置信度的个体预测的坚实的置信度度量,我们提出了一种新的选择回归方法,并提出了一个标准化的评估框架,通过广泛的实验方法证明了我们的方法在多个最先进的基准测试中的优势。
Feb, 2024
通过将多个样本与先前的选择相结合,基于简单的令牌重叠评分,我们将 “Sample & Select” 方法与其他几种解码算法进行比较,证明其在基于 NLI 的 CNN/DM 和 XSum 子集的 FRANK 基准测试中,相对于其他解码算法(DoLA、P-CRR 和 S-CRR)提高了 30% 的事实性,而对参考摘要维持可比的 ROUGE-1 F1 得分,并通过对生成摘要的人工验证进一步证实了我们方法的事实优越性。
Mar, 2024
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
探讨如何利用符合性预测方法对大型语言模型进行不确定性量化,以提高其在多选题答题等任务中的可靠性及稳定性。研究发现,符合性预测所估计的不确定性与模型的预测准确性存在密切关联,这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨了符合性预测对于超出问题领域的问题的处理方法。本工作旨在为大型语言模型在安全关键性场景中提供更加可信和可靠的使用保障。
May, 2023
本文讨论了一种新的方法,可以分析和衡量 Visual Question Answering 模型的稳健性,同时提出了使模型更具鲁棒性的方法,包括自动化的语义图像操作,和测试模型预测的一致性,生成合成数据来解决这些问题,实验结果表明,通过我们编辑的数据,模型的不一致预测显著减少,对于各种有挑战性的计数问题,我们对三种不同类型的最先进的 VQA 模型进行了分析,最终结果同样能够很好地应用于实际误差案例中,从而实现整体性能的提高。
Dec, 2019