Nov, 2023

通过层次关系和常识知识增强场景图生成

TL;DR该论文提出了一种改进的方法来生成场景图,通过引入关系层次结构和常识知识。具体而言,我们提出了一个贝叶斯分类头,利用了信息丰富的层次结构,同时预测两个对象之间的超类或关系类型以及每个超类下的详细关系。我们设计了一个常识验证流程,使用大型语言模型对场景图预测系统的结果进行评估,并利用反馈改善模型性能。该系统在测试时不需要外部大型语言模型的辅助,更适用于实际应用。在 Visual Genome 和 OpenImage V6 数据集上的实验证明,利用层次关系可以大幅提高模型性能。该论文提出的贝叶斯头还可以作为一个可移植模块加入现有的场景图生成算法中,以改善它们的结果。此外,常识验证使得模型能够产生大量超出数据集注释的合理预测。