ChiTransformer:从线索到可靠的立体视觉
该研究介绍了一种两阶段、端到端可训练的自信感知融合网络 (CaFNet),用于通过将 RGB 图像与稀疏且含噪的雷达点云数据相结合,进行密集的深度估计,并通过滤除雷达噪声,提高深度图的可靠性。在 nuScenes 数据集上进行的评估表明,该方法在平均绝对误差 (MAE) 和均方根误差 (RMSE) 方面的性能优于当前领先模型 3.2% 和 2.7%。
Jun, 2024
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
Jun, 2024
我们的方法通过在网络中添加最新的 3D 几何数据作为额外输入,结合之前的几何提示,利用深度和 3D 场景重建领域中的先前工作,实现了与实时交互速度相比达到最先进的深度估计和场景重建。
Jun, 2024
LINSCAN 是一种新的算法,通过利用 DBSCAN 和 OPTICS 的优势,将点嵌入成近似其局部邻域的正态分布,并利用从 Kullback Leibler 散度派生的距离函数,以检测和区分在空间上密集但具有正交协方差的线性聚类,我们演示了如何将 LINSCAN 应用于地震数据,识别出活动断层,包括交叉断层,并确定它们的方向。最后,我们讨论了 DBSCAN 和 OPTICS 的扩展算法必须具备的性质,以保持这些算法的稳定性优势。
Jun, 2024
一项关于使用自监督方法改进泛化性能、处理图形对称注意力及展示改进结果的研究,使用 Symmetry-Invariant Transformer (SiT) 扩展 Vision Transformer (ViT) 的方法在 MiniGrid、Procgen RL 基准测试上展示了优于 ViTs 的泛化能力,并在 Atari 100k 和 CIFAR10 上体现了更高的样本效率。
Jun, 2024
360 度图像的深度估计是虚拟现实、自主导航和沉浸式媒体应用中至关重要的,本研究提出了一种使用未标记 360 度数据的深度估计框架,通过六面立方体投影技术生成伪标签来高效标注 360 度图像的深度,并在深度估计的准确度上展示了显著改进,特别是在零样本情况下。
Jun, 2024
基于成本体积的不确定性估计(UEC)方法利用图像对中的成本体积的丰富相似性信息,以低计算成本实现了竞争性的性能,并且提出了两种不确定性辅助视差估计方法,UDR 和 UDC,优化了迭代方法的视差更新过程,并且通过视差矫正损失显著提高了精度,最终提出了 DR-Stereo,一种高性能的立体架构。实验结果表明 DR-Stereo 在视差估计性能上具有很强的竞争力。
Jun, 2024
DurLAR 是一个高保真度的 128 通道 3D LiDAR 数据集,具有全景环境(近红外)和反射率图像,用于自动驾驶应用的深度估计的样本基准任务,提供了超过以前的基准的分辨率,在 DurLAR 中,通过使用高分辨率但稀疏的真场景深度信息,我们提出了一种新的联合监督 / 自监督损失函数。我们在 DurLAR 数据集、KITTI 基准和 Cityscapes 数据集上进行性能比较,评估结果显示,在 DurLAR 中使用联合监督和自监督损失项,通过优越的真实分辨率和可用性,提高了领先的当代单目深度估计方法的定量和定性性能(RMSE = 3.639,Sq Rel = 0.936)。
Jun, 2024
使用虚拟引擎生成密集深度图,通过训练真实世界数据的模型来处理合成颜色与真实世界颜色的差异,从而在复杂和不确定的环境中实现无监督单目深度估计任务的性能提升。
Jun, 2024
PatchRefiner 是一个高级框架,用于处理高分辨率实际领域输入的度量单图深度估计。通过使用瓷砖分割方法,采用了细节与尺度解耦的损失函数并结合合成数据,PatchRefiner 在深度估计方面取得了显著的性能提升,大幅超过了现有基准,在真实世界数据集上展示了细节准确性和尺度估计的改进效果。
Jun, 2024