跨模态检索的基于样本的条件不确定性量化
本文通过概率分布编码器(PDE)将所有模态的表示作为概率分布映射,对不确定性建模,提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。
Oct, 2022
本文研究了在跨模态(即文本和图像)环境下使用概率嵌入的优势,并提出了一种简单的方法,将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验,证明在跨模态检索中,概率表示法具有一致的优势,并验证了其捕捉不确定性的能力。
Apr, 2022
在本文中,我们针对视觉 - 语言人工智能系统提出了关于不确定性的分类法,区分了由于信息缺乏而产生的认识不确定性和由于固有不可预测性而产生的因果不确定性,并进一步探讨了更加精细的分类。基于这个分类法,我们构建了一个对比性数据集 CertainlyUncertain,其中包含 178K 个视觉问答样本,通过对图像进行修复使原本可以回答的问题变为不可回答,并利用图像标题来引发大型语言模型回答可回答和不可回答的问题。此外,我们引入了一项新的指标 —— 置信加权准确率,它与准确率和校准误差都具有很好的相关性,以解决现有指标的不足之处。
Jul, 2024
我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图 - 文本对应关系的不确定性,不同的权重指导模型关注不同的语义信息,增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略,通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明,UAMVSE 优于最先进的模型。
Sep, 2023
最近几年,大型语言模型(LLMs)已经变得越来越普遍,提供了卓越的文本生成能力。然而,一个迫切的挑战是它们倾向于做出自信的错误预测,突显出在 LLMs 中的不确定性量化(UQ)的重要性。尽管以往的研究主要集中在解决 aleatoric 不确定性,但是包括 epistemic 不确定性在内的整个不确定性范围仍然不够被探索。通过采样与扰动相结合的 UQ 方法(SPUQ),我们提出了一个新颖的 UQ 方法,旨在解决 aleatoric 和 epistemic 不确定性。该方法包括为 LLM 输入生成一组扰动,对于每个扰动进行输出采样,并结合一个聚合模块来推广文本生成任务的采样不确定性方法。通过对各种数据集进行广泛的实验,我们调查了不同的扰动和聚合技术。我们的研究结果显示模型不确定性校准得到了显著改进,平均预期校准误差(ECE)减少了 50%。我们的研究结果表明,我们提出的 UQ 方法为增强 LLMs 的可靠性和可信度迈出了有希望的一步。
Mar, 2024
提出 PUQ(主要不确定性量化)—— 一种新的不确定区域定义和相应的分析方法,可以考虑图像内的空间关系,以提供更小的不确定性区域,并通过实验验证其有效性。
May, 2023
该论文提出了一种名为 CUE 的新框架,通过一个变分自动编码器将预训练语言模型编码表示映射到一个潜在空间并通过扰动潜在空间生成文本表示,从而比较扰动前后的预测不确定性差异以识别引起不确定性的潜在维度并进一步追溯贡献于不确定性的输入特征。该框架在包括语言可接受性分类、情感分类和自然语言推理在内的四个基准数据集上进行了广泛的实验,可行性得到证明。
Jun, 2023
提出了一种新颖的基于排名感知的不确定性方法,通过使用提供的三元组来建模多对多的对应关系,学习特征的随机排名列表,并对源输入和目标图像的分布表示进行分布规范化,从而在组合图像检索的两个公共数据集上取得了显著的结果。
Aug, 2023
通过在科学任务中综合评估检索增强的语言模型中的不确定性量化,本研究旨在填补检索增强语言模型不确定性量化方面的研究空白,发现检索语料库中包含的科学知识无法解决模型对预测结果过度自信的问题。
Nov, 2023
提出了一种新的基于不确定性感知的概率分布检索 (UPRet) 方法,以概率分布的形式理解手语视频和文本之间的映射过程,并探索它们的潜在相互关系,实现了灵活的映射。在三个基准测试上进行的实验展示了我们方法的有效性,分别在 How2Sign (59.1%)、PHOENIX-2014T (72.0%) 和 CSL-Daily (78.4%) 上取得了最先进的结果。
May, 2024