Oct, 2023

视觉数据类型理解不会由于扩展视觉 - 语言模型而出现

TL;DR最新的视觉语言模型(VLM)在识别视觉语义内容方面取得了显著的成功,但在识别视觉数据类型方面存在盲区。本文通过引入 “视觉数据类型识别” 这一新任务,探索并提升 VLM 在识别视觉数据类型方面的能力,通过分析模型的预训练分布,并在微调过程中引入数据类型信息,实现了显著的性能提升。