用于三维数据物体分类的体积和多视角卷积神经网络
利用体素表示法和像素表示法,使用卷积神经网络进行 3D 目标识别。使用新的 V-CNN 架构将两种表示法相结合,获得显著更好的分类器。
Jul, 2016
本文提出了一种基于多层体素网格的端到端多级学习方法来解决现有 3D 目标识别中结构化和非结构化数据表示的缺陷,结果表明该方法在节约内存的同时能够实现与密集体素表示相当的目标识别性能。
May, 2018
本研究论述了通过 CNN 架构识别单个和多个渲染图像视角的 2D 视图图集能够在 3D 物体识别方面表现出更好的性能,提出并证明 CNN 架构结合多个视角信息可提供更好的识别性能,同样适用于人手绘图的物体识别。
May, 2015
本文提出了一种基于全卷积神经网络的三维图像分割方法,通过优化 Dice 系数的目标函数,应对前景和背景体素数量极不平衡的情况,并通过数据增强技术提高数据样本的数量和多样性,实验结果表明该方法在肺部三维图像分割任务中取得了较好的性能。
Jun, 2016
综述了基于多视图三维物体识别方法在三维分类和检索任务方面的最新进展,聚焦于基于深度学习和基于 Transformer 技术的方法,包括常用的三维数据集、相机配置和视角数量、视角选择策略、预训练卷积神经网络架构、融合策略以及在三维分类和检索任务上的识别性能,同时考察了多视图分类在计算机视觉应用中的各种情况,并凸显了关键发现和未来发展方向。
Apr, 2024
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
本研究研究了 3D 形状分类的表示和架构的作用,通过变化训练示例的数量和使用跨模态迁移学习,研究了现有深度架构的初始化对 3D 形状分类的影响,结果表明,多视图方法即使没有在大型标记图像数据集上预训练,甚至在训练简化输入(如二进制轮廓)时,也能提供最好的泛化性能。此外,从图像表示进行跨模态传输可以改善基于体素的 3D 卷积网络和基于点的架构的性能。最后,通过不可区分噪声,研究了 3D 形状分类器对于对抗性变化的鲁棒性,结果发现基于点的网络对于点位置扰动更为稳定,而基于体素和多视图的网络则很容易被输入中的微不足道的噪声所欺骗。
Sep, 2018
3DVNet 是一种结合了先前基于深度和体积的 MVS 方法优点的新型多视图立体 (multi-view stereo) 深度预测方法,使用基于体积的三维卷积神经网络来对所有深度图进行操作,并能够学习有意义的场景级先验知识,其在深度预测和 3D 重建度量上均超越了现有技术,证明该方法在新的环境下具有很好的效果和通用性。
Dec, 2021
为了解决 3D 卷积神经网络在医学影像识别中时间和计算效率低的问题,本文提出将体数据转化为 2D 超级图像,使用 2D 网络用于分割任务,具有实用价值和吸引更多相关研究的意义。
May, 2022
本文提出了一种基于 3D 全卷积神经网络的编码 - 解码网络结构,将其应用于视频中的显著对象分割。尝试使用全 3D 卷积来处理外观和运动信息从而实现密集视频预测,并通过 3D 全局卷积层和 3D 细化模块进行编码和解码操作。作者将其应用于 DAVIS'16 无监督,FBMS 和 ViSal 数据集基准测试中,结果表明其效果优于现有状态艺术,同时速度更快,能够高效地学习空间 - 时间特征并产生高质量的视频分割掩码。
Aug, 2020