可解释的、全局最优的基于图像概念的文本 grounding 预测

NIPSMar, 2018

可解释的、全局最优的基于图像概念的文本 grounding 预测

Interpretable and Globally Optimal Prediction for Textual Grounding using Image Concepts

Raymond A. Yeh, Jinjun Xiong, Wen-mei W. Hwu, Minh N. Do, Alexander G. Schwing

TL;DR本文研究了文本 grounding 的问题，提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议，通过训练的模型参数作为 word-embedding，实现了空间 - 图像关系的捕捉和解释性，实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。

Abstract

textual grounding is an important but challenging task for human-computer interaction, robotics and knowledge mining. Existing algorithms generally formulate the task as selection from a set of bounding box proposals

textual grounding bounding box proposals unified framework word-embeddings flickr 30k entities

发现论文，激发创造

无监督文本 grounding: 将词语与图像概念相连

本研究提出了一种基于深度学习的无监督的文本 grounding（文本与图像上物体的对应关系）方法，并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。

Mar, 2018

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

模块化文本接地实现对反事实韧性

本研究提出一种基于图像级注释的端到端可训练文本地位系统，具有对抗性鲁棒性和逐渐分解文本描述的能力，通过一系列实验验证了该模型优于现有文本定位方法的性能，尤其是对抗性类别方面性能表现突出。

Apr, 2019

ReGround: 提升文本和空间定位的无成本方法

通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Mar, 2024

基于语义先验精细调整的弱监督视觉 - 文本链接

论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM，通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系，达到了最先进的实验效果，并且在使用少量训练样例时也具有竞争性能。

May, 2023

条件图像 - 文本嵌入网络

本文提出了一种基于图像的短语 grounding 方法，基于一个端到端模型的多重条件嵌入来实现。为了将文本短语划分为语义上的不同子空间，我们提出了一个概念权重分支，可以自动将短语分配到嵌入，而不是像传统方法一样预先定义这些分配。我们的方法简化了个体嵌入的表征需求，并允许未被充分表示的概念在输入到概念特定层之前充分利用共享表示。在三个短语 grounding 数据集上的综合实验验证了我们方法的有效性，从而获得了强大的区域 - 短语嵌入基线 4％，3％和 4％的性能改进。

Nov, 2017

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

看见优势：通过视觉衍生词嵌入更好地捕捉人类的语义知识

本文旨在利用图像丰富文本语义模型，以更好地捕捉词汇意义的认知方面，并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好，其中与人类单词相似性的相关性也更高，并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。

Feb, 2022

跨领域理解引导式图像字幕性能

本文提出了一种使用指导文本来控制图像标题关注点的方法，使用基于 Transformer 的多模态编码器来生成标题，通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题，指导标题模型可较好地泛化用于外部领域的图像和指导文本，提高模型性能的关键因素是增加样式的多样性。

Dec, 2020

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017