MMJul, 2022

基于分块对齐和词汇限制的自然语言解释视觉蕴涵

TL;DR本文提出了一种名为 CALeC 的方法,旨在解决语言和图像理解中,以前的方法在语义和各种特征之间的对齐上存在问题,其包括一个基于块意识和词汇约束的生成器和一个基于关系的推理网络,用于提高视觉语言理解的精确度和生成的解释的质量。在三个数据集的广泛实验中,CALeC 明显优于其他竞争模型,可以准确推断出 text-image 对之间的关系并生成解释。