Any2Point:强化各模态大型模型以实现高效的三维理解
我们提出了一种新颖的适用于任何点云模型的 3D 到 2D 生成预训练方法,通过交叉注意机制生成来自不同指示姿势的视图图像作为预训练方案,以精确监督帮助 3D 主干更好地理解点云的几何结构和立体关系,实验结果证明了我们提出的方法在提升架构导向方法性能方面的优越性,并在 Fine-tuning ScanObjectNN 分类和 ShapeNetPart 分割任务时实现了最先进的性能。
Jul, 2023
通过可微分神经渲染,我们提出了一个新的通用方法来学习点云表示,实现了 3D 和 2D 之间的无缝集成,并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。
Oct, 2023
本文介绍了一种基于 Fast Point Transformer 的新型轻量级自我关注层的方法,用于对大型 3D 场景进行处理和提高计算效率,并应用于 3D 语义分割和 3D 检测,具有与基于体素的最佳方法相竞争的准确性和比 Point Transformer 更快的推理时间。
Dec, 2021
本研究使用自监督学习从 2D 图像和自然语言预训练 Transformers 的潜在特征教授 3D 表示学习,进一步促进了跨模态的知识转移和基础几何理解,实现了在各种现有测试中的最先进泛化能力。
Dec, 2022
本文提出了一种使用 2D 网络预训练 3D 深度神经网络的新方法,包括像素到点知识转移、反向投影函数、上采样特征投影层等,成功提升了各种真实世界 3D 网络下游任务的模型性能。
Apr, 2021
通过 Point-PEFT 框架,我们能够在只使用可训练参数的 5% 的情况下,实现优于完全微调的性能,充分展示了我们方法的高效性和有效性。
Oct, 2023
Point-BERT 是一种新的 Transformers 范例,通过预训练点云 Transformers 解决 few-shot 分类问题,在 ModelNet40 和 ScanObjectNN 数据集上取得了超过已有模型的优异表现。
Nov, 2021
本文提出一种通用的视觉转换器(Visual Transformer),名为 Simple3D-Former,可用于高效地进行 2D 和 3D 任务的训练和预测,并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性,同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.
Sep, 2022
本研究提出一种名为 X-Trans2Cap 的 3D 密集字幕生成模型,通过跨模态知识转移实现对单模态 3D 字幕生成性能的有效提升,该模型使用 Transformer,并采用师生框架来构建。在实验中,通过对特征进行对齐和融合,提出的方法不仅能够快速地获取 2D 图像中的丰富且嵌入式的外观信息,而且能够在仅仅使用点云作为输入时生成更加忠实的描述性字幕。定性和定量结果证实,X-Trans2Cap 在 ScanRefer 和 Nr3D 数据集上的性能优于现有的最先进水平,分别提高了约 + 21 和约 + 16 absolute CIDEr 分数。
Mar, 2022
信息瓶颈限制了 3D 物体检测的准确性和可扩展性,因此我们提出了基于 Transformer 的 PVTransformer 架构,通过用注意模块替换 PointNet 池化操作来改善点到体的聚合函数,从而在广泛使用的 Waymo Open Dataset 上实现了卓越的表现。
May, 2024