基于视觉关系的图像字幕的多模态奖励

Mar, 2023

基于视觉关系的图像字幕的多模态奖励

Multi-modal reward for visual relationships-based image captioning

Ali Abedi, Hossein Karshenas, Peyman Adibi

TL;DR研究提出了一种基于融合图像场景图中提取的视觉关系信息和空间特征图的深度神经网络架构，同时引入一种多模态奖励函数，用于通过语言和视觉相似性的结合优化模型，在 MSCOCO 数据集上表明该方法的有效性并超越了多种最先进的图像字幕算法。

Abstract

deep neural networks have achieved promising results in automatic image captioning due to their effective representation learning and context-based content generation capabilities. As a prominent type of deep features used in many of the recent →

deep neural networks image captioning visual relationships reinforcement learning scene graph

发现论文，激发创造

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

基于深度强化学习的图像字幕生成及嵌入奖励

本文介绍了一种新的图像字幕生成框架，利用决策制定的方式，使用多种神经网络和加强学习算法协同生成字幕，并在 Microsoft COCO 数据集上表现良好。

Apr, 2017

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

利用偏序关系引导注意力进行图像字幕生成

本文提出了一种引导式的注意力网络机制，将图像的空间特征、主题的高级信息以及生成的字幕的时间上下文嵌入到一个有序的嵌入空间中进行训练，采用成对的排序目标函数，该模型在 MSCOCO 数据集上表现出与众多最先进模型相媲美的竞争力。

Apr, 2022

基于场景文本的细粒度图像分类与检索的多模态推理图

本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理，在 Con-Text 和 Drink Bottle 数据集中，在细粒度图像分类和图像检索任务中显著优于之前的最新技术。

Sep, 2020

在汉堡中查找豆子：利用深度语义视觉嵌入实现定位

本研究提出了一种新的两条路径的神经网络，其中视觉路径采用了最新的空间感知池化机制模型，结合从头开始训练的文本路径，实现了一种多模态嵌入。在处理带有标注图像的任务中经过训练后，该模型可提供新的跨模态检索性能和短语的视觉定位，达到了最新的最佳表现。

Apr, 2018

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用

本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型，该模型使用多模态关注机制驱动每个分支的视觉特征，并在常用的 VRD 数据集上的实验表明，该方法明显优于其他相关方法。

Feb, 2019

多模态循环神经网络（m-RNN）实现的深度字幕生成

本文提出了一种基于多模态循环神经网络的模型，用于生成图像标题，并在四个基准数据集上验证了该模型的有效性。

Dec, 2014

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019