Mix3D:用于三维场景的非上下文数据增强
深度神经网络在工业制造环境中,数据增强成为了缓解过拟合和提升网络性能的关键策略。我们提出了一种针对工业应用和基准数据集的方法 ContextMix,通过调整图片大小并将其整合到批次中的其他图片中,生成新的数据。该方法在性能上超过了现有的增强技术,并在公共基准数据集上的分类、检测和分割任务中展示了改进的结果。在真实的工业环境中,我们的方法表现出了显著的效果,尤其是在被动元件数据集上。
Jan, 2024
我们提出了 TripletMix,一种新的方法来解决多模态数据增强在 3D 理解中的问题,通过混合增强的原则同时增强文本、图像和点云三种模态数据,从而提高模型的跨模态理解能力和泛化能力。
May, 2024
在通常正常的数据增量中增加特定任务需求的先验知识,在对象检测语境下,通过利用卷积神经网络来预测图像中可以放置物体的区域,同时仅使用有限的数据集,通过弱监督学习得到显著的提高。
Sep, 2018
本研究旨在通过利用分割注释来增加训练数据中的物体实例数量,通过适当地对物体周围的视觉环境进行建模以在物体所处的正确环境中放置它们,以提高少量标记样本的 VOC'12 基准测试平均精度。
Jul, 2018
通过对实际训练数据集进行改进,我们提出了一种使用对抗性示例来增强模型对领域外数据的泛化能力的方法,通过学习和应用一组矢量来扭曲对象并进行对抗性增强,从而显著提高了三维对象检测和三维语义分割方法对领域外数据的鲁棒性和泛化能力。
Aug, 2023
本文提出了一种端到端可训练的多视角聚合模型,利用 3D 点的视角优势,从任意位置拍摄的图像中合并特征,将标准 2D 和 3D 网络相结合,不需要着色、上网格或真实深度图,我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。
Apr, 2022
在自动驾驶中,高效利用数据对于推进 3D 场景理解至关重要。我们的研究在 LiDAR 语义分割上扩展了半监督学习,利用行驶场景的内在空间先验和多传感器互补来增强无标注数据集的有效性。我们引入了 LaserMix++,这是一个进化的框架,结合了来自不同 LiDAR 扫描的激光束操作,并结合了 LiDAR - 相机对应关系,进一步辅助高效学习。我们的框架旨在通过整合多模态(包括:1)用于细粒度交叉传感器相互作用的多模态 LaserMix 操作;2)增强 LiDAR 特征学习的相机到 LiDAR 特征提炼;和 3)使用开放词汇模型生成辅助监督的语言驱动知识引导)来增强 3D 场景一致性正则化。LaserMix++ 的多功能性使其适用于 LiDAR 表示的各种应用,确立了其作为一种普遍适用的解决方案。通过理论分析和对流行驾驶感知数据集的广泛实验,我们对我们的框架进行了严格验证。结果显示,LaserMix++ 明显优于完全监督的替代方案,在只使用五分之一的注释数据的情况下实现了可比较的准确性,并显著改善了仅使用监督的基准线。这一重大进展突显了半监督方法在减少对标记数据的依赖方面对基于 LiDAR 的 3D 场景理解系统的潜力。
May, 2024
MixCon3D 结合 2D 图像和 3D 点云之间的互补信息,增强对比学习,并通过提供更准确全面描述真实世界 3D 物体的多视图 2D 图像集成,增强传统的三模态表示,加强文本对齐。我们对 3D 对比学习的各种训练配方进行了全面调查,并建立了一个性能改进的坚实基线。在三个代表性基准测试中进行的大量实验证明,我们的方法相比基线有显著改进,在具有挑战性的 1,156 类别 Objaverse-LVIS 数据集上的表现超过目前最先进的性能 5.7%。我们进一步展示了我们方法在文本到 3D 检索和点云字幕等更多应用中的有效性。
Nov, 2023
本文提出了一种神经传递信息的方法来与其环境相匹配的新物体进行增强,该方法能够预测适合位置的物体类型的概率分布,并在密集图中传递学习消息来处理物体相之间的空间和结构关系,通过注意机制加权消息,在 SUNCG 数据集中比其他方法更准确地预测场景中缺失的物体,并展示了基于此方法的其他应用,包括基于上下文的 3D 对象识别和迭代场景生成。
Jul, 2019