用于字到句的视觉语义相似度在标题生成的应用:得到的经验教训
本研究旨在改善图像标注系统生成的字幕,提出一种利用视觉语义测量识别最佳字幕的新型排名方法,通过 Belief Revision 框架校准排名结果,利用字幕与视觉上下文之间的语义相关性来提高典型图像标注系统的性能。
Sep, 2022
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。
Jun, 2015
本文提出了一种结合图卷积网络(GCN)的视觉语义单元对象相互作用的图形语义和几何建模方法,利用上下文门控注意力模块将当前单词与视觉语义单元对齐,针对 MS-COCO 图像字幕数据集,与现有方法相比报告了更好的结果。
Aug, 2019
研究了一种生成序列图像以可视化故事的任务,提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型,并提供了相应的评价指标和对这些指标的直观检验。
May, 2021
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
该研究提出了一种基于学习语义概念并按照正确语义顺序组织它们来提高图像表示的语义增强图像和句子匹配模型,利用多区域多标签 CNN 预测图像语义概念并使用上下文门控句子生成方案进行语义顺序学习,与传统 LSTM 结合执行图像和句子匹配和生成。这项工作在两个公共基准数据集上实现了最先进的结果。
Dec, 2017
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。
Sep, 2019