Jul, 2024

确信的不确定性: 一种用于多模态认知和随机意识的基准和度量

TL;DR在本文中,我们针对视觉-语言人工智能系统提出了关于不确定性的分类法,区分了由于信息缺乏而产生的认识不确定性和由于固有不可预测性而产生的因果不确定性,并进一步探讨了更加精细的分类。基于这个分类法,我们构建了一个对比性数据集CertainlyUncertain,其中包含178K个视觉问答样本,通过对图像进行修复使原本可以回答的问题变为不可回答,并利用图像标题来引发大型语言模型回答可回答和不可回答的问题。此外,我们引入了一项新的指标——置信加权准确率,它与准确率和校准误差都具有很好的相关性,以解决现有指标的不足之处。