Jun, 2024

有选择性地回答视觉问题

TL;DR近期,大型多模态模型在视觉任务中表现出前所未有的精确性,尤其对于帮助盲人或视障人士提供准确答案至关重要,而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析,研究了两个回答能力基准测试中的 VQA,结果显示,对于上下文学习来说,视觉模型的可能性得分比其纯文本模型更为校准,尽管基于采样的方法通常更优,但没有明确的赢家。我们提出了 Avg BLEU,这是一种结合了两种模式的采样和可能性方法优点的校准评分。