本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
本文提出了一种用于自动生成图像描述的新方法:使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。
Nov, 2014
通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
Oct, 2023
通过多模态网络,该工作借助互联网上的图像标注来进行弱监督学习,实现语境上下文对图像中出现的类别的提取与分割,并在 COCO 数据集上取得了 SOTA 的结果。
May, 2019
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
本研究说明无监督学习是可行的图像字幕生成方式,通过利用具有视觉概念检测器的图像集和句子语料库进行训练,生成的字幕能够与图像的语义内容一致且无需图片字幕标注。
Nov, 2018
本文提出了一种基于锚文本和锚中心图的多视角多解释图像说明生成方法,以提高生成说明的多样性和准确性。
Apr, 2021
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进行解码。
Nov, 2016
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020
本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024