用汇聚方法建模空间关系,实现图像检索和注释
本论文提出一种文本条件化的关系网络模型,通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系,从而实现对文本中空间参照的理解,具有可解释性和鲁棒性,在三个任务中实现了 17% 和 15% 的表现改进,从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。
May, 2020
本研究提出了空间关系模块和通道关系模块,可用于学习和推理任何两个空间位置或特征图之间的全局关系,并产生关系增强的特征表示。研究团队在利用两个航空图像数据集进行的语义分割任务中使用这些模块,取得了相当优异的结果,比基准模型有显著提升。
Apr, 2019
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
本研究回顾了视觉模型和统计语义先验模型相结合对图像与场景描述匹配的任务的改进,并将其与一种新颖的无明确训练视觉先验模型的条件多路模型进行比较。同时,我们还讨论了提出方法与人脑记忆模型之间的潜在关系。
Aug, 2018
该论文提出了一种无需使用空间信息的新型池化方法,可以学习图像序列的特征软聚类,从而改进特征的时间相干性,且在图像分类任务上表现优异。
Jan, 2013
本文研究基于大规模文本到图像合成 (T2I),研究其中的空间理解能力,并提出了一个评估指标 VISOR,并引入一个大规模的数据集 SR2D 以及自动化评估管道,对 T2I 模型进行了大规模实验,发现其在多对象和空间关系生成方面存在严重限制和偏差,并提供了数据集和评估指标以支持 T2I 空间推理研究。
Dec, 2022
当前计算机视觉系统在识别实物基础空间关系方面的性能较差,通过提出了精确的关系定义以允许对基准数据集进行一致的标注,并利用 Transformer 模型的长程注意力能力对这一任务提出新的方法进行评估。我们提出了一种名为 “RelatiViT” 的简单架构,并证明其胜过所有当前方法,这是第一种在实际场景中令人信服地优于朴素基准的空间关系预测方法。
Mar, 2024
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
本文介绍了一种新的建模视觉关系方法,设计了强大而灵活的视觉特征,提出了一种弱监督判别式聚类模型来从仅具有图像级标签的数据中学习关系,并引入了一个新的具有挑战性的数据集(UnRel)和详尽的注释,用于准备评估视觉关系检索。实验结果表明,本文提出的模型在视觉关系数据集上取得了显著的提高,并在新引入的 UnRel 数据集上验证了该观察结果的有效性。
Jul, 2017