Jul, 2024

通过场景图增强视觉语言模型用于交通事故理解

TL;DR通过将交通场景表示为场景图,并将其与视觉和语言模态对齐进行事故分类,在交通事故识别中引入多阶段、多模态的流水线能够提高分类准确率。