- 自监督视觉学习用于分析网络上的枪支贩卖活动
从 RGB 图像进行自动视觉火器分类是一个重要的实际任务,应用于公共空间安全、情报收集和执法调查;本文评估了使用深度神经网络、卷积神经网络和自监督学习方法进行图像分类的效果,并未使用视觉变换网络架构进行评估。
- MFOS: 无模型且一次性物体姿态估计
提出了一种基于 Transformer 架构的新颖方法,用于在训练期从最少的输入中估计从未在训练中见过的物体的姿态,并在困难的 LINEMOD 基准测试中实现了最新的一次性表现。
- ICCVRPEFlow: RGB-PointCloud-Event 模态多模融合光流与场景流估计
通过提出的多阶段多模态融合模型 RPEFlow,将 RGB 图像、点云和事件相机用于联合光流和场景流估计,并引入注意力融合模块以及互信息正则化项来提高性能。实验结果表明,该模型在合成和真实数据集上优于现有的最先进方法。
- ICCVUniSeg:统一的多模态 LiDAR 分割网络和 OpenPCSeg 代码库
本文介绍了一种统一的多模态 LiDAR 分割网络 (UniSeg),它利用 RGB 图像和点云的三个视图信息,同时完成语义分割和整体分割。UniSeg 在三个公开基准测试中取得了有希望的结果,在 nuScenes 和 SemanticKIT - 将单目图像和稀疏 IMU 信号融合用于实时人体运动捕捉
将 RGB 图像与惯性信号相结合的实时人体运动捕捉方法通过双坐标策略利用不同目标的 IMU 信号进行完全探索,并引入了隐藏状态反馈机制以应对极端输入情况。定量和定性结果表明,通过精心设计的融合方法,我们的技术在全局方向和局部姿势估计上明显优 - ICCV自监督 6D 物体姿态估计中的伪流一致性
无需辅助信息,我们提出了一种使用纯 RGB 图像进行训练的 6D 物体姿态估计方法,通过利用来自多个不同视角的合成至实图像对中的几何约束(以像素级流一致性的形式表示)进行精化策略,从合成图像中获得初始姿态估计,并使用动态生成的伪标签。在三个 - MatSpectNet:具有领域感知和物理约束的材料分割网络
提出了一种新模型 MatSpectNet,利用从 RGB 图像中恢复的高光谱图像来进行物质分割,通过色彩感知原理和域自适应方法,将高光谱图像的恢复能力推广到物质分割数据集中,实验证明 MatSpectNet 在像素准确性和类别准确性方面比现 - 视觉化基于农业机器人导航的农田作物行出口
本文中介绍了一种基于视觉反馈的纯视觉方案,使用 RGB 图像进行局部特征匹配来退出作物行,并在作物行末端使用深度图像来估算导航距离,模拟在多样化的围栏区域中进行的算法测试表明其误差在 50cm 以内。
- 利用神经模板正则化从不同视角进行 3D 重建
本文提出了一种基于体绘制的神经表面重建方法,它只需要三张不同的 RGB 图像作为输入。我们的关键点是通过规范化重建来解决严重的不适定问题。我们的方法 DiViNet 分为两个阶段,第一阶段学习不同场景下的 3D 高斯函数模板,第二阶段使用预 - SAM3D: 三维场景中物体分割
SAM3D 是一个创新的框架,通过利用 RGB 图像中的 Segment-Anything 模型而无需进一步训练或微调,能够在 3D 点云中预测掩模,首先预测具有 SAM 的 RGB 图像的分割掩模,然后将 2D 掩模投影到 3D 点中。最 - MIPI 2023 RGB+ToF 深度补全挑战:方法与结果
该研究报告介绍了 RGB 图像和稀疏飞行时间(ToF)测量的深度完成竞赛的结果,比较了不同方法的准确性以及深度学习在该领域的应用。
- 从 RGB 图像中学习恢复光谱反射率
本文提出了一种基于自我监督元辅助学习策略的新型架构,应用于从 RGB 图像中恢复光谱反射率的问题,并在算法中引入了光谱反射率与对应 RGB 图像之间的物理关系以及多种光照条件下的多图像信息以提高模型效果。
- CVPR基于混合融合的多模态工业异常检测
本文提出了一种基于 3D 点云和 RGB 图像的新型多模式异常检测方法 M3DM,其中采用了无监督特征融合、决策层融合和点特征对齐等技术,实验表明该方法优于现有的同类方法。
- ECCVAutoAlignV2:用于动态多模态 3D 物体检测的可变形特征聚合
本研究提出了 Cross-Domain DeformCAFA 模块,以解决 AutoAlign 在全局关注方面存在的高计算成本问题。加入了特定采样点的跨模态关系建模,还设计了跨模态增强策略和图像级 dropout 训练方案,提出了一种更快、 - CVPR仅使用 RGB 模态进行衣着变换人员重新识别
该研究提出了一种基于衣服的对抗损失 (CAL) 方法,从原始 RGB 图像中挖掘与衣服无关的特征来提高衣服变化人员重新识别的准确度。同时,也贡献了一个名为 CCVID 的数据集,为对建模时空信息提供实验基础。
- CVPR金字塔式关注网络用于显著性检测
该研究利用 RGB 图像估计深度信息,使用金字塔式的注意力机制从中提取多层级卷积变换的特征,综合使用残差卷积注意力解码器进行显著性预测,取得了比 21 种 RGB SOD 方法和 40 种 RGB-D SOD 方法更为优异的性能表现。
- CVPRCAT-Det: 多模式三维物体检测的对比增强变换器
提出了一种新的多模态三维物体检测方法 - CAT-Det,将深度学习和对比学习相结合,更好地利用 LiDAR 和 RGB 图像之间的互补信息来提高检测准确性。
- 利用渐进增强学习技术探测细粒度人脸伪造线索
使用面部假冒技术制造的可信度问题日益增加,提出了一种利用 RGB 和粒度细微频率提示的渐进增强学习框架来解决这个问题,实验结果表明,该方法优于现有的面部伪造检测方法。
- 自动驾驶中基于 2D 弱监督的多模态 3D 人体姿态估计
本文提出了一种在自动驾驶方案中的多模态方法,使用 2D RGB 图像的弱监督进行 3D 人体姿势估计(HPE),进而在 Waymo 开放数据集中取得了比仅基于相机和 LiDAR 的模型更好的效果。
- 城市辐射场
从由摄像头和扫描器捕捉的 RGB 图像和激光雷达扫描序列中,使用我们的扩展方法,生成具有深度信息的 3D 表面,以及合成新颖的 RGB 图像。