Mar, 2024

使用虚词去偏以提升视觉 - 语言模型中的场景图生成

TL;DR通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能提升。