利用超细语义标签进行解耦的边界框提议和特征提取改善图像描述生成和视觉问答

Sep, 2019

利用超细语义标签进行解耦的边界框提议和特征提取改善图像描述生成和视觉问答

Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering

HTML

PDF

Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut

TL;DR本文研究了对象检测在视觉和语言任务（如图像字幕和视觉问答）中的重要作用以及解耦盒子提议和特征化对下游任务的影响。实证表明，这导致有效的转移学习和改进的图像字幕和视觉问答模型，以公开可用的基准为衡量。

Abstract

object detection plays an important role in current solutions to vision and language tasks like image captioning and visual question answering

发现论文，激发创造

基于属性和外部知识的图像字幕和视觉问答

本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法，并证明其在图像字幕和视觉问答中取得了显著的改进。该机制还可用于合并外部知识，特别是允许在图像中回答有关内容的问题，即使图像本身不能提供完整答案。

Mar, 2016

基于自下而上和自上而下的注意力机制用于图像字幕生成与视觉问答

本篇研究提出一种混合自下而上和自上而下视觉关注机制，能在对象和其他显著图像区域的水平上计算注意力权重，实现更深入图像理解，将其应用于图像字幕生成和视觉问答任务中，取得了优于现有技术的成绩。

Jul, 2017

通过无监督任务发现的迁移学习，用于视觉问答

通过使用视觉和语言数据，利用无监督任务发现学习一个任务特定的视觉分类器，并将其转移到视觉问答模型中作为答案单元，以解决视觉问题中的词汇表外问题，并通过从视觉数据转移的知识成功推广以应对此问题。

Oct, 2018

ViLBERT：预训练无任务束缚的视觉语言表示，用于视觉与语言任务

ViLBERT是一种用于学习图像内容和自然语言的任务不可知联合表示的模型，并通过在多模态两个流中处理图像和文本输入，通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型，然后通过仅对基础体系结构进行轻微添加，将其转移到多个已建立的视觉语言任务——视觉问答、视觉常识推理、指称表达和基于字幕的图像检索，我们观察到与现有特定任务模型相比，在所有四个任务中都实现了显着的改进，成为学习视觉与语言之间接地只作为任务培训的一部分，而不是对待视觉接地作为可预训练和可转移能力的代表性工作。

Aug, 2019

将语义概念注入端到端图像字幕生成

本文提出了一种全新的视觉变换器（Vision transformer-based）图像标题模型ViTCAP，使用网格表示而不提取区域特征。为了提高性能，引入了基于Vision Transformer的概念令牌网络（CTN），可以高效地预测语义概念，并将其整合到端到端的标题生成中，从而实现竞争性能，同时简化了结构。

Dec, 2021

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

读取、查看和检测：从图像-标题对中标注边界框

本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法，并利用视觉语言（VL）模型和自监督视觉变压器（ViTs）进行实验，取得了较好的结果。

Jun, 2023

将图像处理统一为视觉提示问题回答

我们提出了一个名为PromptGIP的通用模型，通过视觉提示式问答范式统一了多样化的图像处理任务，消除了特定任务微调的需求。该方法提供了通用且适应性强的解决方案，可用于图像处理中的跨领域任务，包括图像恢复和图像增强。

Oct, 2023

FlexCap: 在图像中生成丰富、本地化和灵活的标题

我们介绍了一种多功能的“灵活字幕”视觉语言模型（VLM），能够生成长度各异的区域特定描述。该模型FlexCap训练用于为输入边界框生成长度条件化的字幕，从而控制其输出的信息密度，从简要的物体标签到详细的字幕不等。通过创建大规模的训练数据集，从带字幕的图像开始，我们实现了这一灵活字幕的功能，并展示了其在密集字幕任务、视觉问答和对象检测等领域具有广泛应用的优越性能。

Mar, 2024

通过问题驱动的图像标题作为提示，增强视觉问答能力

通过在视觉问题回答（VQA）过程中利用图像描述作为中介步骤，建立零样本设置，探索了零样本VQA的影响。比较了最先进的图像描述模型对于不同问题类型的VQA性能在结构和语义上的影响，并在VQA过程中提出了一种简单高效的问题驱动图像描述方法，通过提取问题关键词、为每个图像-问题对生成描述，并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力，在零样本设置下能够实现竞争性的GQA性能。

Apr, 2024