Jul, 2022

事件级别视觉问答的跨模态因果关系推理

TL;DR本文提出了一种名为 CMCIR 的事件级别视觉问答框架,以实现稳健的因果感知视觉 - 语言问答,其利用因果干预方法发现视觉和语言两种模态的真实因果结构,并成功地在四个事件级别数据集上验证了其优越性。