Mar, 2024

使用虚词去偏以提升视觉-语言模型中的场景图生成

TL;DR通过使用预训练的视觉-语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与SGG之间的差距,我们的方法有效地处理了词汇偏见,加强了SGG的表示,并获得了显著的性能提升。