用于二元问题回答的校准大型语言模型

Jul, 2024

用于二元问题回答的校准大型语言模型

Calibrated Large Language Models for Binary Question Answering

PDF

Patrizio Giovannotti, Alexander Gammerman

TL;DR利用归纳 Venn--Abers 预测器（IVAP）校准二元标签对应的输出标记的概率，我们的实验结果表明 IVAP 方法在各种标签标记选择下始终优于常用的温度缩放方法，能够产生良好校准的概率并保持高的预测质量。

Abstract

Quantifying the uncertainty of predictions made by large language models (llms) in →

uncertainty predictions calibration llms binary text classification

发现论文，激发创造

LLMs 的置信度评分多重校准

通过使用 “多校准” 技术，本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准，可以显著提高校准和准确性。

Apr, 2024

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

多语言问答模型的校准理解

这篇论文研究了多语言预训练语言模型在问答任务中的校准性质，包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况，以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术，并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。

Nov, 2023

LitCab: 轻量级语言模型校准在多种长度输出上

LitCab 是一种轻量级的校准机制，通过仅增加不到原始模型参数数量的 2% 的线性层对输入文本表示进行操作，改善了模型校准，提升了在不同文本生成任务上的性能，并对不同模型进行综合评估，得出了关于模型校准的关键发现。

Oct, 2023

语言模型的语言校准

将语言模型从音频转换到文本，并且生成可校准的长篇文本，以便用户能够在后续决策中作出校准的概率预测。

Mar, 2024

仅使用生成进行大型语言模型的校准

利用 APRICOT 方法，通过模型的文本输入和输出，设置置信度目标并训练附加模型，从而有效地进行大语言模型的置信度校准。该方法不仅概念简单，而且不需要访问目标模型的其他信息，不会干扰语言生成，并且在封闭型问答中以检测错误答案方面具有竞争性的校准误差表现。

Mar, 2024

从大型语言模型中校正长文生成

通过引入统一的校准框架，以及发展三种度量和两种置信度引导方法，提高大规模语言模型的校准能力，并进行了实验验证，进一步展示了大型模型不一定保证更好的校准，校准性能依赖于度量，自一致性方法在基准数据集上表现优异，通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性，此研究不仅挑战了现有大规模语言模型校准的概念，还提供了改善长文生成可信度的实用方法。

Feb, 2024

使用 Venn-ABERS 预测器校准自然语言理解模型

本文提出了在少量假设条件下构建多个感知 - ABERS 预测器 (IVAP) 的方法，该方法基于预训练的 Transformers 模型，保证了其预测是良好校准的。我们在多个自然语言理解任务上测试了它们的性能，并展示了这些预测器的预测结果可以在 [0,1] 区间内均匀分布，同时仍保持原模型的预测准确性。

May, 2022

视觉语言模型校准的关键因素的实证研究

本研究探究了视觉语言模型（VLMs）在不同架构、数据集和训练策略下的校准性能，发现温度缩放显著且一致地改善了校准性能，即使在分布转变和标签集改变的情况下，借此实验结果，我们强调了我们对 VLMs 的理解在关键实际场景中的潜在应用和重要性，旨在更可靠、有效地使用 VLMs。

Feb, 2024

研究多选设置下对齐语言模型的不确定性校准

对齐的语言模型在多选题设置下多显示过于自信的输出答案，我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响，并提出了易于实施且高效的校准方法。

Oct, 2023