Jan, 2024

利用基于聊天的大型视觉语言模型进行多模式场景外检测

TL;DR证明了在多模态的背景下,通过对数据集进行微调,可以显著提高大视觉 - 语言模型在超文本检测任务中的性能。