使用视觉 Transformer 进行高效的 3D 物体重建
本文提出了一种名为 3D-RETR 的方法,它可以使用 Transformer 执行端到端 3D 重建,实现从单个视角或多个视角的 3D 重建,并且在两个数据集上获得了最先进的性能表现。
Oct, 2021
这篇论文介绍了一种利用神经网络来解决从单一图像生成多角度视角的问题,并且在人脸和椅子等特定物体类别的数据上取得了良好的效果,同时展示了模型无需完全监督就可在多个应用中使用的能力。
Jan, 2016
本篇综述文章总结了基于深度学习技术的图像三维重建方法,以形状表示、网络结构和训练机制为基础,介绍了近期该领域的研究进展和性能比较,并探讨未来研究的方向。
Jun, 2019
从学习代理的角度探究了单视角 3D 物体重建任务,提出了一种包含透视变换定义的新型投影损失的编码器 - 解码器网络,实现了从单个 2D 图像生成 3D 体积的无监督学习,并通过实验证明了投影损失提高了 3D 对象重建的性能和泛化能力。
Dec, 2016
本文提出了一种名为 3D Volume Transformer(VolT)的新框架,将多视角 3D 重建转化成了序列到序列的预测问题,并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上,我们的方法比其他基于 CNN 的方法使用更少的参数(减少了 70%),实现了新的多视角重建的最新精度。
Mar, 2021
该研究提出了两种替代方法进行单视图对象重建,并证明了编码器 - 解码器方法与这些基线方法在统计上是无法区分的,从而表明当前单视图对象重建技术实际上是在进行图像分类,而非重建。同时,研究者还发现了实验程序中存在的一些问题,并提出了改进方法。
May, 2019
本文提出一种通用的视觉转换器(Visual Transformer),名为 Simple3D-Former,可用于高效地进行 2D 和 3D 任务的训练和预测,并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性,同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.
Sep, 2022
此研究论文研究如何从单个 RGB 图像自动重建场景的完整 3D 模型,它采用一种新的 Epipolar Feature Transformer 技术来联合图像的多层深度表示和卷积神经网络特征以提高场景信息的准确性。
Feb, 2019
我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法,能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点,并且通过在 KITTI 和 DDAD 数据集上的实验,展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明,虽然基于 Transformer 的架构在运行时间效率上较低,但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能,并且更加稳健。
Dec, 2023
通过在大规模自然图像上预训练的 2D 视觉 Transformer 模型,初始化基于 Transformer 的 3D 神经元分割模型,建立了丰富的自然图像与稀有神经元图像之间的知识共享连接,以提高 3D 神经元分割的效能。
May, 2024