图像字幕视觉语义关联数据集
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。
Sep, 2019
本文提出一种改进图像 - 字幕生成系统的方法,通过从视觉上下文的角度修订语言生成输出的 beam search,采取视觉语义量化概念,在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。
Sep, 2022
本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术,以实现无配对图像说明,并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer,能够有效地提高图像说明的质量,并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。
Jun, 2021
本文提出了两种关联度度量指标,并提出一种新的策略用于定义语义自适应边缘,并将其用于标准三元组损失函数的优化中,从而在有限的训练数据情况下得到了很大的改进。
Oct, 2021
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文介绍了一个新数据集,即 ST-VQA,旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务,需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷,同时提出一系列基线方法。
May, 2019
本文提出了一种结合图卷积网络(GCN)的视觉语义单元对象相互作用的图形语义和几何建模方法,利用上下文门控注意力模块将当前单词与视觉语义单元对齐,针对 MS-COCO 图像字幕数据集,与现有方法相比报告了更好的结果。
Aug, 2019
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019