Jun, 2024

超越感知之门:视觉转换器表示对象之间关系

TL;DR视觉变换器(ViTs)在各种情境下取得了最先进的性能,但在涉及视觉关系的任务中却展现出惊人的失误。本文从机械性可解释性的角度研究了 ViTs 用于执行抽象视觉推理的高层视觉算法,并通过一个关系推理任务的案例研究,发现 ViTs 通常表现出两个完全不同的处理阶段,这些阶段在没有明显的归纳偏差的情况下:1)感知阶段,在此阶段提取并存储局部对象特征,2)关系阶段,在此阶段比较对象表示。通过理解 ViTs 的离散处理阶段,可以更精确地诊断和纠正现有和将来模型的缺陷。