- ALADIN:用于高效图像 - 文本匹配和检索的细粒度对齐分数压缩
本文提出了一种名为 ALADIN 的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎 90 倍的速度下与最先进的 VL Transformer 网络相竞争,具有 - 基于不确定性的概率表示交叉模态检索
本文研究了在跨模态(即文本和图像)环境下使用概率嵌入的优势,并提出了一种简单的方法,将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验,证明在跨模态检索中,概率表示法具有一致的优势,并验证了其捕捉不确定 - ECCVECCV 标题:通过收集 MS-COCO 的机器和人验证的图像字幕关联来纠正假阴性
通过构建扩展 COCO 验证(ECCV)标题数据集,并使用五种最先进的 ITM 模型进行注释,提供了比原来的 MS-COCO 更多的正面图像 - 标题和标题 - 图像关联。我们提出使用信息排名度量 mAP@R 而不是普通的 R@K,并重评估 - 一张图片相当于五个句子吗?对于图像 - 文本匹配的语义进行新的探究
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
- IJCAI基于逐层分步对齐的图像 - 文本匹配网络
本文提出了一种逐步分层对齐网络 (SHAN) 的图像 - 文本匹配方法,将图像 - 文本匹配分解成多步跨模态推理过程以捕捉层次化的细粒度相关性,并在两个基准数据集上进行了实验。
- 图像描述生成的宏观控制
本论文提出了两种新方法来改善图像字幕模型的多样性、可控性和句子生成质量,并使用图像文本匹配模型来选择更好的句子。实验结果表明,这些方法可以显著提高模型的性能。
- AAAI图文匹配的相似性推理与过滤
本研究针对图像和文本匹配问题,提出了一种新颖的基于相似性图推理和注意力过滤的网络模型 (SGRAF),通过学习矢量化的相似性表示,利用局部和全局对齐信息进行关系感知相似度计算,并通过注意力机制选择性地整合对齐信息,实现了在 Flickr30 - 使用图形注意力学习图像文本匹配的双重语义关系
本文提出了一种名为双重语义关系注意力网络 (DSRAN) 的新型图注意力方法,该方法主要由两个模块组成,分别进行不同层次的语义关系学习,从而提高图像文本匹配的准确性,并在 MS-COCO 和 Flickr30K 数据集上取得了显著优于以往方 - EMNLPMedICaT: 医学影像、字幕和文本参考数据集
介绍了用于 MedICaT 医学图像的上下文数据集,其中包括来自 131k 篇开放获取生物医学论文的 217k 个图像。该数据集用于研究复合图中的子图对子标题的自动对齐,并展示了内联引用在图像文本匹配中的效用。
- ECCV基于共识感知的视觉 - 语义嵌入用于图像 - 文本匹配
本文提出一种共识感知的视觉 - 语义嵌入模型(CVSE),以将共识信息,即图像文字的基础知识,融入到图像 - 文本匹配中,并通过构建概念相关性图来实现共识信息的利用,以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明,相较 - 图像文本匹配和检索的 Transformer 推理网络
本文介绍了使用 Transformer Encoder Reasoning Network 架构来进行图像与文本的自动匹配,以便于实现大规模信息检索。试验结果表明,本架构成功实现了该任务且获得了创新性的成果。
- Pixel-BERT:基于深度多模态 Transformer 实现图像像素与文本的对齐
Pixel-BERT 是一种多模态的深度转换器,可以通过使用图像和文本数据对其进行联合学习,从而在像素和文本级别上进行语义连接,实现视觉和语言任务的更准确和彻底的连接,并解决了视觉任务中语义标签不平衡的问题。
- CVPR图结构网络用于图像文本匹配
本文提出了一种新的基于图形结构匹配网络的图像 - 文本匹配方法,可以有效地解决对象、关系和属性的细粒度对应问题。实验结果表明,该方法在 Flickr30K 和 MSCOCO 数据集上相较于其他方法拥有高达近 7% 和 2% 的召回率提升。
- InterBERT:多模态预训练中的视觉 - 语言交互
该论文提出了一种基于多模态预训练的新型模型 InterBERT,通过预训练的方式实现了多个任务,包括掩码片段建模、掩码区域建模和图像与文本匹配,并在视觉和语言下游任务上进行了 fine-tuning,最终实现了基于主题的推荐和基于文本的图像 - ECCV适应性离线五元组损失用于图像文本匹配
本文介绍使用离线采样负样本与五元组损失函数来改进图像和文本匹配模型,并在 MS-COCO 和 Flickr30K 数据集上得到了显著的性能提升。
- AAAI像语言一样表达物体:用于图像 - 文本匹配的循环视觉嵌入
文章提出了一种针对图像 - 文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在 Flickr - 利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成
通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。
- ICCV图像 - 文本匹配的视觉语义推理
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 - 多模态张量融合和重新排序的图像和文本匹配
我们提出了一个新的框架,使用基于排名的张量融合来显式学习准确的图像文本相似度函数,通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡,从而达到了优秀的匹配性能。
- IJCAI基于位置关注网络的图像文本匹配
本论文介绍了一种基于位置关注的注意网络(PFAN),以解决图像和文本匹配任务中精确度量视觉和文本内容相似性的跨域问题,通过引入对象位置线索和注意机制,增强了图像和文本的特征表达和可信关系,从而实现了三个数据集上的最先进性能水平,包括我们自己