- ICML评估和分析 LVLM 中的关系幻觉
通过引入 R-Bench 评估 Vision Relationship Hallucination,在大型视觉语言模型中探讨幻觉问题,尤其关注对象关系中的幻觉,包括关系 - 关系、主体 - 关系和关系 - 对象三种关系共现形成的幻觉,以及视 - 扩散模型中的关系矫正
通过改进文本编码器和使用异构图卷积网络模型 (HGCN),我们提出了一种名为关系修正的新任务,以确保大型文本到图像扩散模型能够准确表示特定的视觉关系。我们在包含关系词和反转物体顺序的提示对中进行了优化,保留了文本编码器和扩散模型的参数,从而 - 面向终身场景图生成的知识感知上下文提示学习
基于在预训练语言模型中环境背景学习的成就,本论文提出了一种新颖实用的场景图生成框架,名为终身场景图生成(LSGG),在其中任务如谓词以流式方式展开。严格实验表明,我们提出的方法在 LSGG 方面在各种度量标准上优于现有方法。此外,在两个主流 - 基于视觉关系的图像字幕的多模态奖励
研究提出了一种基于融合图像场景图中提取的视觉关系信息和空间特征图的深度神经网络架构,同时引入一种多模态奖励函数,用于通过语言和视觉相似性的结合优化模型,在 MSCOCO 数据集上表明该方法的有效性并超越了多种最先进的图像字幕算法。
- ICLRRelViT: 用于视觉关系推理的概念引导视觉 Transformer
本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型,通过优化定义为物体实体及其关系概念,推动 ViTs 的推理能力,并介绍了一种新的概念特征字典,以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示,我们的模型 - 从整体到特定:通过平衡调整进行信息化场景图生成
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相 - ICCV动态场景图生成的时空变换器
本文提出了一种基于空间 - 时间变换器 (STTran) 的神经网络,用于生成给定视频的动态场景图。STTran 包括一个空间编码器和一个时间解码器,能够有效地捕捉对象之间的视觉关系和帧之间的时间依赖。与已有方法相比,我们的方法在 Acti - 使用场景图进行视觉关系检测:一项调查
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
- CVPR利用场景图的结构化基于查询的图像检索
该论文介绍了一种基于场景图嵌入的方法,将视觉关系作为结构化查询用于图像检索,其在低频率对象检索上效果显著。
- 关系变换网络
该论文提出了一种新颖的 transformer 模型,用于场景图生成和关系预测,利用编码器 - 解码器架构和节点和边的丰富特征嵌入,通过自我注意力和交叉注意力模拟节点之间和边与节点之间的交互,并引入适用于处理解码器中的边的新的位置嵌入。
- 深度监督的多模态注意力翻译嵌入在视觉关系检测中的应用
本论文提出了一种新的基于深度学习的架构 —— 多模态注意力翻译嵌入模型,该模型使用多模态关注机制驱动每个分支的视觉特征,并在常用的 VRD 数据集上的实验表明,该方法明显优于其他相关方法。
- ICCVVrR-VG: 聚焦视觉相关关系
通过构建一个名为 VrR-VG 的新场景图数据集,我们提出了一种通过修剪视觉不相关的关系来自动挖掘更有价值关系的新方法,并通过考虑实例、属性和关系来学习关系感知表征,从而系统性地提高了图像字幕和视觉问题回答的性能。
- 洗牌再组合:学习与对象无关的视觉关系特征
本文提出了一种新的预训练策略 “洗牌 — 组装”,旨在学习对象不可知的视觉特征用于关系建模,其中通过残差变换来捕获共享但非特定于对象的视觉模式,实验结果表明,使用我们预训练的特征,关系模型不仅可以持续得到改进,甚至能够胜过其他最先进的关系模 - ECCVZoom-Net:挖掘深度特征交互进行视觉关系识别
本研究提出了 Zoom-Net 算法,该算法通过特征互动实现了在不使用语言先验知识的情况下,识别复杂关系的出色表现。实验表明该算法与其他采用显式的语言交互模型的算法相比,能够大幅提高性能。
- 利用盒子注意力检测视觉关系
通过引入盒子注意力机制的方式,我们提出了一种新的模型来检测视觉关系,例如 “骑摩托车的人” 或 “桌子上的瓶子”。我们在三个具有挑战性的数据集中进行了实验评估并取得了强大的定量和定性结果。
- ICCV利用内部和外部语言知识蒸馏的视觉关系检测
该研究使用语言统计学的知识来规范视觉模型的训练,在学习视觉关系中的主语、谓语和宾语等实体之间的关系时,可以更准确地反映它们之间的联系。实验结果表明,使用此语言知识提炼,可显著提高模型的检测性能。
- ECCV具有语言先验知识的视觉关系检测
本研究提出了一种新的模型,使用语义词嵌入的语言先验知识进行训练,以预测图像中的多个视觉关系,同时将物体和谓词分别训练,并在图像中标定对象的位置,从而提高基于内容的图像检索的准确性。
- SIGIR基于图像的风格和替代品推荐
本文旨在通过建立一个基于图像的大规模数据集并开发一个可扩展的方法来揭示人类视觉关系方面的概念模型,该模型不是基于用户注释的细粒度建模,而是基于图像关系网络的网络推理问题。 其提供了一个用于训练和评估的大规模数据集,并可用于推荐衣物和配饰的搭