May, 2023

视觉语境下的语义组合模型

TL;DR本文探讨了视觉图像和语言语义的组合结构问题,并提出了一些方法,如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization,以提高这种组合结构的能力。