Aug, 2023

轻量级内窥镜深度估计与 CNN-Transformer 编码器

TL;DR我们在内窥镜成像中解决了准确性和鲁棒性方面的关键挑战,特别强调了实时推断和反射的影响。我们提出了一种创新的轻量级解决方案,通过整合卷积神经网络(CNN)和 Transformer 来预测多尺度深度图。我们的方法包括优化网络架构,引入多尺度膨胀卷积和多通道注意机制。我们还引入了一种统计置信度边界掩模,以最小化反射区域的影响。此外,我们提出了一种新颖的复杂度评估指标,考虑了网络参数大小、浮点操作和推断帧率。我们的研究旨在显著提高腹腔镜手术的效率和安全性。我们对我们提出的方法进行了全面评估,并与现有解决方案进行了比较。结果表明,我们的方法在保持轻量级的同时确保了深度估计的准确性。