CVPRMar, 2024

SC-Tune:解锁大型视觉语言模型中的自洽参考理解

TL;DR我们介绍了 LVLM 的自一致能力和新颖的自一致调整范式 (SC-Tune),证明了 SC-Tune 显著提升了目标级别视觉语言基准的性能,并在图像级视觉语言基准上保持了竞争力或改进的性能。