RelViT: 用于视觉关系推理的概念引导视觉 Transformer

ICLRApr, 2022

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning

Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao...

TL;DR本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Abstract

Reasoning about visual relationships is central to how humans interpret the visual world. This task remains challenging for current deep learning algorithms since it requires addressing three key technical proble

visual relationships deep learning object entities semantic relations systematic generalization

发现论文，激发创造

超越感知之门：视觉转换器表示对象之间关系

视觉变换器（ViTs）在各种情境下取得了最先进的性能，但在涉及视觉关系的任务中却展现出惊人的失误。本文从机械性可解释性的角度研究了 ViTs 用于执行抽象视觉推理的高层视觉算法，并通过一个关系推理任务的案例研究，发现 ViTs 通常表现出两个完全不同的处理阶段，这些阶段在没有明显的归纳偏差的情况下：1）感知阶段，在此阶段提取并存储局部对象特征，2）关系阶段，在此阶段比较对象表示。通过理解 ViTs 的离散处理阶段，可以更精确地诊断和纠正现有和将来模型的缺陷。

Jun, 2024

ViRel：无监督的图像关系发现与图层类比

本文提出了 ViRel，一种基于图级类比的无监督发现和学习视觉关系的方法。在一个共享着相同的底层关系子图结构的任务环境下，我们的学习方法通过对同构和非同构图形进行比较，以无监督的方式发现跨任务的关系。结果表明，我们的方法在关系分类方面达到了超过 95％的准确率，发现了大多数任务的关系图结构，并进一步推广到具有更复杂关系结构的未见过的任务上。

Jul, 2022

EL-VIT: 使用交互可视化研究视觉 Transformer

EL-VIT 是一种交互式可视化分析系统，可以帮助 ViT 用户理解 ViT 的工作机制，通过四个层次的可视化视图展示 ViT 的模型架构、操作过程和数学运算，以及计算图块之间的余弦相似度。

Jan, 2024

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

ViR: 视觉记忆网络

基于自注意力机制的视觉转换器（ViTs）因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注，然而，其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发，我们提出了一种新的计算机视觉模型，命名为视觉保留网络（ViR），具有双并行和循环结构，以在快速推理和并行训练之间达到最佳平衡，并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法，我们通过大量实验证实了 ViR 的有效性，并提供了代码和预训练模型的公开获取。

Oct, 2023

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

一种统一且生物合理的视觉 Transformer 关系图表示法

本文提出了视觉变换器（ViT）的统一生物学关系图表示，其中聚合图和仿射图是关键子图，本方法能够很好地描述其空间相互作用和网络通信，并发现了聚合图的组团系数和平均路径长度是模型预测性能的有效指标且具有很高的可解释性。

May, 2022

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

视觉问答的弱监督相对空间推理

这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知，并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标，利用现成的深度估计器，设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型，使得在视觉问答挑战中取得了显著的表现改善。

Sep, 2021

基于渐进语义引导的视觉变形器用于零样本学习

我们提出了一种用于零样本学习的渐进式语义引导视觉 Transformer（ZSLViT），通过语义嵌入令牌学习改进视觉 - 语义对应关系，发现语义相关的视觉令牌，并且通过弱语义 - 视觉对应关系融合来舍弃与语义无关的视觉信息，从而在零样本学习中实现准确的视觉 - 语义交互作用，我们的 ZSLViT 在 CUB、SUN 和 AWA2 等三个常用基准数据集上取得了显著的性能提升。

Apr, 2024