May, 2024

自动驾驶场景中基于语言增强的潜在表示的异常检测

TL;DR利用多模态模型 CLIP 编码的图像和文本表示的余弦相似度作为一种新的表示,以改善用于视觉异常检测的潜在编码的透明性和可控性。通过与仅能产生用户无意义的潜在表示的现有预训练编码器进行比较,我们的实验表明,基于语言的潜在表示比传统视觉编码器的表示更好,并在与标准表示相结合时有助于提高检测性能。