- Diff3Dformer:利用切片序列扩散增强 Transformer 网络在 3D CT 分类中的应用
利用扩散模型的潜在空间来形成 3D 分析的切片序列,并将聚类关注融入 ViT 以聚合 3D CT 扫描中的重复信息,从而利用先进的 Transformer 模型在小型数据集上执行 3D 分类任务,表现出卓越的性能。
- 深度唤醒:一种 RGB-D 伪装物体检测的深度 - 感知 - 注意力融合网络
本文提出了一种新颖的深度感知注意力融合网络,利用深度图作为辅助输入,增强网络感知三维信息的能力,从而改善伪装物体检测。通过使用特定的编码器提取色彩和深度信息,并引入深度加权的交叉注意力融合模块来动态调整深度和 RGB 特征图的融合权重。最后 - 3D 整体匿名化
提出一种利用三维信息对手术室的多视角 RGB-D 视频记录进行自动化匿名化的新方法,该匿名化方法通过将每个图像中的人脸替换为不同的人脸来保持原始数据分布的一致性,以便进一步的下游任务。
- 使用预训练嵌入进行医学图像检索
本研究中,我们评估了使用四种最先进的预训练模型在模态、身体区域和器官级别进行医学图像检索的可行性,并比较了两种相似性索引方法的结果。结果表明,在没有额外训练或微调步骤的情况下,使用预训练网络进行医学图像检索是可行的,并且在模态、身体区域和器 - 基于图像点云融合的异常检测:以 PD-REAL 数据集为例
通过使用 Play-Doh 模型和 RealSense 相机,我们提出了 PD-REAL 数据集,用于在 3D 领域进行无监督异常检测研究,该数据集在分析 3D 信息的有益作用时展示了显著的节约成本、易扩展性和易于控制变量的优势。
- 欺骗深度:通过深度模拟增强 3D 表面异常检测
通过引入 3D 信息和 Depth-Aware Discrete Autoencoder (DADA) 架构,以及提出的新型表面异常检测方法 3DSR,本研究在 MVTec3D 异常检测基准上取得了准确性和处理速度方面的优势,验证了利用深度 - ICCVTrackFlow: 多目标跟踪与归一化流
通过概率建模解决多目标追踪中的多模态信息融合问题,提高了多个基于检测的追踪算法的性能。
- AAAI面向域自适应语义分割的几何感知网络
提出了一种新的基于几何感知网络的域自适应模型,通过利用更紧凑的三维几何点云表示来缩小领域差距,显式利用从 RGB-D 图像生成的点云的三维拓扑结构进行伪标签的细化,解决了估计二维深度时无法从根本上提取对象的内部三维信息的问题,并在 GTA5 - 自主驾驶的大规模神经场景渲染
本文提出一种大规模神经渲染方法来合成自主驾驶场景 (READ),通过各种采样方案,可以在 PC 上合成大规模驾驶场景。我们提出一个 ω 渲染网络来表示驾驶场景,该网络从稀疏点云中学习神经描述符。实验表明,我们的模型在大规模驾驶场景中表现良好 - CVPR3D 常见数据损坏及数据增强
本文提出了一组图像转换,用作对模型鲁棒性的评估,以及训练神经网络的数据增强机制。这些转换具有现实世界中更可能出现的损坏方式和语义,可以有效提高模型的鲁棒性,并为鲁棒性研究开辟了有前途的方向。
- ICCV使用三维形状、姿态和外观的循环自监督学习逼真的人体姿势重建
SPICE 是一个基于 3D 信息和自监督的图像合成框架,在没有配对的训练图像时合成人体图像的性能超过了以前的无监督方法,并与最先进的监督方法相当,同时也可以生成包含输入图像和姿势序列的时间上连续的视频。
- CVPRSAIL-VOS 3D:用于视频数据目标检测和三维网格重建的合成数据集和基准
本研究提出了一个使用带时间信息的基准模型对视频数据进行三维物体网格重建的方法,通过构建综合场景来萃取物体的详细三维信息。我们通过 SAIL-VOS 3D 合成视频数据集验证了该方法的有效性,并向公众提供了相应的资源和信息。
- 构象合集下的分子机器学习
利用多个构象的 3D 信息可以改善深度学习模型在分子性质预测中的表现,我们介绍了多重深度学习模型,并将其在二维、三维和四维表示中的表现进行了测试,深度学习模型可以学习每个构象的可解释性关注权重。
- 面向对称性的三维分子设计的演员 - 评论家算法
使用深度强化学习自动化分子设计,在利用基于图形表示法设计分子的进步存在基本限制的情况下,我们提出了一种新的三维分子设计策略,该策略通过基于球谐级数展开的旋转协变的状态 - 动作表示法利用了设计过程的对称性,进而产生了先前方法无法实现的分子结 - ECCV隐藏脚印:从 3D 人类轨迹中学习上下文的可步行性
通过利用 3D 信息和现有数据集中的观测结果来增强有效的、标记的可步行区域数据,并使用基于类平衡分类的损失和情境对抗性的损失的训练策略,实现了从一张图像预测行走性地图的模型,并在 Waymo 和 Cityscapes 数据集上展示了卓越的性 - ECCVProcrustes 回归网络:从二维标注中学习非刚性物体的三维结构
提出了一种新的神经网络训练框架,可以在只有 2D 注释的情况下学习非刚性物体的 3D 信息,该框架通过自动确定适当的旋转解决了非刚性结构运动估计中同时估计旋转和变形的难点,使用损失函数进行训练后,网络可以学习人类骨架和面孔等对象的 3D 结 - CVPRSurfConv: 为 RGBD 图像建立 3D 和 2D 卷积之桥
本文提出使用 SurfConv 作为一种新型的深度学习算法,可以有效地解决在 3D 图像中使用卷积神经网络在尺度上变化和浪费空间等问题,通过新的数据驱动深度离散化方案(D4),在室内和室外 3D 语义分割数据集上获得了超越 3D 卷积方法并 - 用于驾驶场景中点云车辆检测和跟踪的反卷积网络
本文提出了一种使用 3D 激光雷达信息的汽车检测和跟踪系统,其中检测步骤使用卷积神经网络(CNN),并通过多假设扩展卡尔曼滤波器实现多目标跟踪。此基于激光雷达的方法与基于图像的检测器使用大约相似的结果并仅使用原始数据的 4%。
- 基于图形正则化的光场超分辨率
本研究提出了一种新的光场超分辨率算法,采用多帧方法,使用不同光场视图中的信息来增强整个光场的空间分辨率,结合图形正则化器通过非局部自相似性来避免各个视图昂贵且具挑战性的差异估计步骤。实验表明,本算法在 PSNR 和视觉质量方面都与其他光场超