通过场景图对齐进行非配对图片描述
本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法,通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成, 并在汉语图像描述生成任务上展示了其有效性。
Oct, 2020
本文提出了一种通过图像 - 句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021
本文提出了一种跨越视觉和语言领域的高级语义信息桥接技术,以实现无配对图像说明,并引入了基于语义概念关系探索的解决方案 ——Semantic Relationship Explorer,能够有效地提高图像说明的质量,并且在 MSCOCO 数据集下总体得分比配对数据集高出 8%。
Jun, 2021
本文探讨了使用场景图在图像字幕生成中的应用,研究表明添加场景图编码器可以提高字幕描述效果,提出了一种 C-GAT 模型,该模型条件化图更新功能,使用高质量的场景图可与现有的底部 - 顶部基准模型相比获得 3.3 CIDEr 改进。
Sep, 2020
通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。
Aug, 2019
提出了 SG2Caps 框架,该框架利用场景图标签进行图像说明,以避免昂贵的图形卷积。 该框架利用空间位置和 HOI 标签作为附加的 HOI 图,实现了更好的性能。
Feb, 2021
本文旨在探索无监督图像标注任务,使用已有的图像和文本之间的重叠关系构建用于训练变形金刚模型的数据集以及研究对象信息和属性之间的关系,以此提高无监督方法的性能表现。
Dec, 2021
提出了一种半监督学习方法,使用对抗式学习来为未配对的样本分配伪标签,提升图像字幕模型的泛化性能,并展示了该方法在不同场景下都有较为明显的性能提升,包括关系字幕和网络爬虫数据。
Jan, 2023
提出了一种新的图像字幕生成方法,该方法能够利用无图像数据的文本数据,并使用区域图像特征生成有意义的二进制向量,从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量,并通过软关注机制对其进行解码。
Nov, 2016