Mar, 2024
使用虚词去偏以提升视觉 - 语言模型中的场景图生成
Improving Scene Graph Generation with Relation Words' Debiasing in Vision-Language Models
Yuxuan Wang, Xiaoyuan Liu
TL;DR通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能提升。