Apr, 2024

TrafficVLM: 可控的交通视频字幕视觉语言模型

TL;DRTrafficVLM 是一种新颖的多模态密集视频字幕模型,用于车辆自我摄像机视角中对交通视频事件进行不同层次的空间和时间分析,生成精细描述,提出了一种条件组件和多任务微调范式来增强 TrafficVLM 的学习能力,将其应用于 AI City Challenge 2024 的 Track 2 获得了杰出的成绩,排名第三。