用于二元问题回答的校准大型语言模型
近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析,研究了两个回答能力基准测试中的 VQA,结果显示,对于上下文学习来说,视觉模型的可能性得分比其纯文本模型更为校准,尽管基于采样的方法通常更优,但没有明确的赢家。我们提出了 Avg BLEU,这是一种结合了两种模式的采样和可能性方法优点的校准评分。
Jun, 2024
这篇论文研究了多语言预训练语言模型在问答任务中的校准性质,包括从不同维度研究了其在分布内、分布外和跨语言迁移设置下的校准情况,以及改进校准性的策略和技术。通过实验证明了自动翻译数据增强是提高模型校准性的一种高效技术,并进行了模型大小和多语言模型在不同任务和语言下与单语模型的比较的实验。
Nov, 2023
LitCab 是一种轻量级的校准机制,通过仅增加不到原始模型参数数量的 2% 的线性层对输入文本表示进行操作,改善了模型校准,提升了在不同文本生成任务上的性能,并对不同模型进行综合评估,得出了关于模型校准的关键发现。
Oct, 2023
利用 APRICOT 方法,通过模型的文本输入和输出,设置置信度目标并训练附加模型,从而有效地进行大语言模型的置信度校准。该方法不仅概念简单,而且不需要访问目标模型的其他信息,不会干扰语言生成,并且在封闭型问答中以检测错误答案方面具有竞争性的校准误差表现。
Mar, 2024
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
本文提出了在少量假设条件下构建多个感知 - ABERS 预测器 (IVAP) 的方法,该方法基于预训练的 Transformers 模型,保证了其预测是良好校准的。我们在多个自然语言理解任务上测试了它们的性能,并展示了这些预测器的预测结果可以在 [0,1] 区间内均匀分布,同时仍保持原模型的预测准确性。
May, 2022
本研究探究了视觉语言模型(VLMs)在不同架构、数据集和训练策略下的校准性能,发现温度缩放显著且一致地改善了校准性能,即使在分布转变和标签集改变的情况下,借此实验结果,我们强调了我们对 VLMs 的理解在关键实际场景中的潜在应用和重要性,旨在更可靠、有效地使用 VLMs。
Feb, 2024
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
Oct, 2023