UniVSE: 通过结构化语义表示实现强健的视觉语义嵌入
本文提出一种共识感知的视觉 - 语义嵌入模型(CVSE),以将共识信息,即图像文字的基础知识,融入到图像 - 文本匹配中,并通过构建概念相关性图来实现共识信息的利用,以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明,相较于先进的方法,利用共识信息对构建更有意义的视觉 - 语义嵌入具有优越的性能,特别是在双向图像和文本检索任务上。
Jul, 2020
该研究旨在解决将文本的分布式表示与视觉域进行关联的问题。通过对视觉语义嵌入的深入研究,提出了基于语言规则和 WordNet 知识库的对抗样本技术,通过在 MS-COCO 图像字幕数据集上的评估取得了良好效果。
Jun, 2018
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017
我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图 - 文本对应关系的不确定性,不同的权重指导模型关注不同的语义信息,增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略,通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明,UAMVSE 优于最先进的模型。
Sep, 2023
利用视觉 - 语义嵌入的新技术进行跨模态检索,通过采用 hard negative mining,结构化预测中的 hard negatives 和排名损失函数的结合,对多模态嵌入的常见损失函数进行简单改变,在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++,并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中,他们的方法在 R@1 上比现有技术方法分别提高了 11.3%和 8.8%。
Jul, 2017
本文介绍了一项新任务:为动词进行视觉意义消歧,以此作为多模态任务如图像检索和图像描述的基础,并提出了基于 Lesk 算法的无监督算法来执行视觉意义消歧,说明了在有和无标注图像情况下,文本嵌入和多模态嵌入的性能。本文最终提供了 VerSe 数据集,并提供了下载链接。
Mar, 2016
现有的视觉信息提取方法通常将从表单样式文档中提取信息的过程分解为不同的子任务,我们提出了一种新的视角,将其重新定义为关系预测问题,并统一了不同任务的标签,以解决表单文档中的层次关系。我们提出的统一模型 UniVIE 通过构建树提案和关系解码模块来全面解决视觉信息提取问题,通过引入树注意力掩码和树级别嵌入来增强关系预测能力。在我们的数据集 HierForms 和公开数据集 SIBR 上进行的广泛实验评估证明了我们方法达到了最先进的结果,突显了我们统一方法在推进视觉信息提取领域的有效性和潜力。
Jan, 2024
本文提出快速自适应负采样算法,解决了图像语义嵌入中负采样难题, 该算法能够线性处理大型数据集, 并且比目前最先进的方法在 OpenImages,IAPR-TCI2 和 NUS-WIDE 数据集上的收敛速度分别提高了 5.02 倍, 2.5 倍和 2.06 倍,在各个数据集上获得较好的排名准确性。
Jan, 2018
提出了一种称为 joint embeddings for zero-shot learning 的方法,通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息,并利用辅助字幕来提高图像和文本表示之间的对齐,从而在多个基准数据集上评估了该方法,在标准的(aPY 上 + 1.6%,FLO 上 + 2.6%)和常规的(AWA2 上 + 2.1%,CUB 上 + 2.2%)零 - shot 识别中提高了现有最先进方法的性能。
Jan, 2022
本文提出了一个目标函数来将分布式词嵌入与视觉信息重新对齐,通过学习将其映射到一个新的表示形式 —— 视觉对齐词嵌入(VAWE),从而使 VAWE 的邻域结构与视觉领域中的结构类似,以克服分布式词嵌入和视觉相似性不匹配的问题。经过四种最先进的零 - shot 学习方法和四个基准数据集的评估,VAWE 表现出了持续的性能改进。
Jul, 2017