Nov, 2023

扩展场景图边界:通过视觉 - 概念对齐和保持实现全开词汇场景图生成

TL;DR提出了一种名为 OvSGTR 的统一框架,用于从整体视角实现完全开放词汇的场景图生成,并通过知识蒸馏保留视觉 - 概念对齐,综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。