May, 2024

CityLLaVA: 城市场景下VLMs的高效微调

TL;DR城市场景交通安全描述与分析在保险检查和事故预防等应用中起着关键作用。本文介绍了CityLLaVA,一种专门用于城市场景的视觉语言模型的新的微调框架,通过采用边界框进行最佳视觉数据预处理,包括视频最佳视角选择和在训练和测试阶段进行视觉提示工程;构建简明的问答序列和设计文本提示以提高指令理解;通过块扩展高效微调大型视觉语言模型,并通过一种独特的顺序提问预测增强方法提高预测准确性。在实验中,我们的方法达到了33.4308的基准分数,在排行榜上占据了领先位置。