ReGround: 提升文本和空间定位的无成本方法

Mar, 2024

ReGround: 提升文本和空间定位的无成本方法

ReGround: Improving Textual and Spatial Grounding at No Cost

Yuseung Lee, Minhyuk Sung

TL;DR通过改变网络架构，将分布式注意力和交叉注意力从串行变为并行，可以显著减少文本和空间对齐之间的权衡。

Abstract

When an image generation process is guided by both a text prompt and spatial cues, such as a set of bounding boxes, do these elements work in harmony, or does one dominate the other? Our analysis of a pretrained

image generation text prompt spatial cues grounding network architecture

发现论文，激发创造

文本短语重建图像基础

通过采用注意力机制来重构给定的短语，本论文提出了一种新的接近无监督学习的方法来学习 grounding，该方法不需要太多的地面实时监督，有效提高了在 Flickr 30k 实体数据集上的表现。

Nov, 2015

可解释的、全局最优的基于图像概念的文本 grounding 预测

本文研究了文本 grounding 的问题，提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议，通过训练的模型参数作为 word-embedding，实现了空间 - 图像关系的捕捉和解释性，实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。

Mar, 2018

自我监督的空间位置辅助指令视频中的叙述理解

该文介绍了将叙述交互视频逐帧定位的任务，并通过一个多层交叉模态注意力网络实现自我监督的效果，其中交替计算视觉和自然语言模态的相互关注，以有效地进行训练，其表现超过基线模型包括浅层和全跨模态关注。

Oct, 2021

分布式注意力用于基于图像描述的场景理解

该研究针对弱监督概念下的图片描述问题，提出了一种基于分布式注意力机制和局部连接信息的部分地基准技术，可以帮助生成最佳的图片描述。

Aug, 2021

多模态生成：将语言模型与图像相结合

该研究提出了一种有效的方法，将预训练的纯文本语言模型转移到视觉领域，使其能够处理和生成任意交错的图像和文本数据，并在上下文图像检索和多模态对话等方面实现了强有力的效果。

Jan, 2023

基于关注重心的文本到图像的合成

本研究提出了两个新的损失函数，用于在采样过程中根据给定的布局重新聚焦注意力图，以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题，并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验，证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中，并始终提高其生成图像与文本提示之间的对齐度。

Jun, 2023

基于语义先验精细调整的弱监督视觉 - 文本链接

论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM，通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系，达到了最先进的实验效果，并且在使用少量训练样例时也具有竞争性能。

May, 2023

用于答案定位的句子注意力模块

提出了一种名为 “Sentence Attention Block” 的新型建筑模块，通过明确建模图像特征图与句子嵌入之间的相互依赖关系，重新校准了通道级图像特征图，以过滤基于句子嵌入的不相关特征图通道，进而实现了目前最先进准确度的提高。

Sep, 2023

提升文档理解能力的研究：基于 MLLMs 的文本定位探索

在文档理解领域，本文提出了一种文本定位的文档理解模型，命名为 TGDoc，通过增强多模态大型语言模型（MLLMs）的能力来识别图像内文本的空间位置，以提高文本内容解释的准确性，从而提高对文本丰富图像的理解能力。实验证据表明，文本定位方法在多个文本丰富基准测试中取得了最先进的性能，验证了我们方法的有效性。

Nov, 2023

通过提炼图像 - 文本匹配模型，实现更加扎实的图像字幕生成

本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法（称为 POS-SCAN），以提高图像字幕准确性，并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。

Apr, 2020