Aug, 2023

BEVControl: 通过 BEV 草图布局实现多透视一致性准确控制街景元素

TL;DR使用合成图像来提升感知模型的性能是计算机视觉中长期存在的研究挑战,在多视角摄像头的视觉为中心的自动驾驶系统中变得更加突出,由于一些长尾场景无法收集。在 BEV 分割布局的指导下,现有的生成网络似乎在仅根据场景级度量进行评估时能够合成逼真的街景图像。然而,一旦放大,它们通常无法生成准确的前景和背景细节,如航向。为此,我们提出了一种名为 BEVControl 的两阶段生成方法,可以生成准确的前景和背景内容。与类似分割的输入不同,它还支持手绘风格的输入,这对人类进行编辑更加灵活。此外,我们提出了一个全面的多级评估协议,以公平比较生成的场景、前景对象和背景几何的质量。我们广泛的实验表明,我们的 BEVControl 在前景分割 mIoU 上比现有方法 BEVGen 有显着提升,从 5.89 到 26.80。此外,我们还证明了使用 BEVControl 生成的图像来训练下游感知模型,平均 NDS 分数提高了 1.29。