Jan, 2024

朝向视觉语法理解

TL;DR通过改变自然图像的句法(例如交换一个脸部的眼睛和鼻子)来调查深度神经网络对此类句法异常的敏感性,并提出了一个三阶段框架来实现深度神经网络的视觉句法理解。通过使用类似于 BERT 的图像掩蔽自编码器进行训练,我们在 CelebA 和 AFHQ 数据集上进行实验证明了方法的广义性能。