ReGround: 提升文本和空间定位的无成本方法
通过采用注意力机制来重构给定的短语,本论文提出了一种新的接近无监督学习的方法来学习 grounding,该方法不需要太多的地面实时监督,有效提高了在 Flickr 30k 实体数据集上的表现。
Nov, 2015
本文研究了文本 grounding 的问题,提出了一种统一的框架来有效地搜索所有可能的 bounding box 提议,通过训练的模型参数作为 word-embedding,实现了空间 - 图像关系的捕捉和解释性,实验表明本方法在 Flickr 30k Entities 和 ReferItGame 数据集上的表现要好于当前最先进的方法。
Mar, 2018
该文介绍了将叙述交互视频逐帧定位的任务,并通过一个多层交叉模态注意力网络实现自我监督的效果,其中交替计算视觉和自然语言模态的相互关注,以有效地进行训练,其表现超过基线模型包括浅层和全跨模态关注。
Oct, 2021
该研究提出了一种有效的方法,将预训练的纯文本语言模型转移到视觉领域,使其能够处理和生成任意交错的图像和文本数据,并在上下文图像检索和多模态对话等方面实现了强有力的效果。
Jan, 2023
本研究提出了两个新的损失函数,用于在采样过程中根据给定的布局重新聚焦注意力图,以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题,并通过 Large Language Models 合成的布局在 DrawBench 和 HRS 基准测试中进行了全面实验,证明了我们提出的方法可以轻松有效地集成到现有的文本到图像方法中,并始终提高其生成图像与文本提示之间的对齐度。
Jun, 2023
论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM,通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系,达到了最先进的实验效果,并且在使用少量训练样例时也具有竞争性能。
May, 2023
提出了一种名为 “Sentence Attention Block” 的新型建筑模块,通过明确建模图像特征图与句子嵌入之间的相互依赖关系,重新校准了通道级图像特征图,以过滤基于句子嵌入的不相关特征图通道,进而实现了目前最先进准确度的提高。
Sep, 2023
在文档理解领域,本文提出了一种文本定位的文档理解模型,命名为 TGDoc,通过增强多模态大型语言模型(MLLMs)的能力来识别图像内文本的空间位置,以提高文本内容解释的准确性,从而提高对文本丰富图像的理解能力。实验证据表明,文本定位方法在多个文本丰富基准测试中取得了最先进的性能,验证了我们方法的有效性。
Nov, 2023
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
Apr, 2020