Dec, 2023

本地化符号化知识蒸馏用于视觉常识模型

TL;DR使用局部可见的常识模型来训练视觉 - 语言模型以支持图像内部推理。