Jun, 2023

面向未知三元组:用于场景图生成的有效文本 - 图像联合学习

TL;DR本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型,采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题,同时设计了平衡的学习策略。实验表明,在 Visual Genome 数据集上,TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。