ECCVJul, 2018

StereoNet: 实时边缘感知深度预测的引导分层细化

TL;DR提出了 StereoNet,这是第一个端到端实时立体匹配的深度学习架构,在 NVidia Titan X 上以 60fps 运行,产生高质量,边缘保留且无量化的视差图。 该网络具有超像素匹配精度的关键洞见,比传统立体匹配方法高一个数量级,通过使用低分辨率代价体编码所需的所有信息,从而实现实时性。采用学习的边缘感知上采样函数实现空间精度,并使用 Siamese 网络从左右图像提取特征。在非常低的分辨率代价体中计算视差的初步估计,然后模型通过使用紧凑的像素到像素细化网络的学习上采样函数分层地重新引入高频细节。利用颜色输入作为指南,该函数能够产生高质量的边缘感知输出,并在多个基准测试中取得了显着的结果,演示了所提出的方法在可接受的计算预算下提供了极大的灵活性。