Apr, 2022

基于注意力机制的认知层场景理解

TL;DR本文介绍了一个新的并行注意力的认知 VCR 网络(PAVCR 网络),该网络能够在推理过程中进行視覺和文本信息的融合,以及并行编码语义信息,从而捕捉认知级别推理所需的丰富信息,并提供了对视觉常识推理的直观解释。大量实验表明,所提出的模型比现有方法在基准 VCR 数据集上均有显着的改进。