Oct, 2024

LOBG:减少过拟合以提高视觉-语言模型的泛化能力

TL;DR本研究针对现有视觉-语言模型(VLM)在下游任务中因过拟合导致的泛化能力下降问题,提出了LOBG框架。通过使用CLIP过滤细粒度前景信息,并结合结构拓扑保持(STP)损失和层级逻辑蒸馏(HLD),显著提升了模型的泛化能力,减轻了过拟合现象。