- 基于超图的多视角动作识别使用事件摄像机
多视角基于事件的行为识别框架 HyperMV 在多视角事件数据利用方面填补了现有研究的差距,并引入了最大的多视角基于事件的行为数据集 THU-MV-EACT-50,通过实验结果证明 HyperMV 在跨主体和跨视角情况下明显优于基线模型,同 - RetiGen:利用多视场眼底图像进行广义视网膜诊断的框架
该研究介绍了一种用于增强医学图像领域普适性的新框架,特别关注于利用未标记的多视角彩色底片照片。与依赖单视图成像数据且在不同临床场景中通用性有挑战的传统方法不同,我们的方法利用未标记的多视角成像数据中的丰富信息来提高模型的稳健性和准确性。通过 - MV2MAE:多视角视频掩码自编码器
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视 - 多视角非标定深度相机下的多人三维姿态估计
利用稀疏的未校准深度相机提供的 RGBD 视频流,我们提出了一种简单的多视角深度人体姿态估计 (MVD-HPE) 管线,用于联合预测相机姿态和 3D 人体姿态,无需训练深度 3D 人体姿态回归模型。
- 几何偏置变换器用于鲁棒的多视角 3D 人体姿势重建
通过提出一种新颖的编码器 - 解码器 Transformer 架构,结合多视角和时间信息、几何关系和 2D 姿态检测可信度,我们解决了估计多视图下遮挡和受限重叠视图的 3D 人体姿势的挑战。我们的实验表明该方法在传统三角定位方法的具有挑战性 - 为多视角行人检测优化摄像机配置
这项研究提出了一种基于 Transformer 的摄像头配置生成器,通过强化学习自主探索行为空间内的各种组合,并搜索训练数据集中给出最高检测精度的配置,实现多摄像头视角下行人检测的优化布局。
- Direct2.5: 多视角 2.5D 扩散下的多样化文本到 3D 生成
通过使用经过微调的 2D 扩散模型的多视角 2.5D 扩散方法,我们填补了 2D 扩散和直接 3D 扩散方法之间的差距,为 3D 内容生成提供了多样性、无模式寻找和高保真度,仅需 10 秒。
- 智能交通系统的实用大规模路旁多视角多传感器空间同步框架
我们的研究引入了基于并行空间变换的框架用于大规模、多视角、多传感器场景,实现了路边场景的空间同步,减小了累积误差,并通过深度学习、地理定位线索和优化算法提高了同步精度。此框架在真实场景中进行了测试,在大规模路边多视角、多传感器空间同步方面表 - C^2M-DoT: 跨模态一致的多视角医疗报告生成与领域迁移网络
提出了一种具有领域转移网络的跨模态一致的多视角医疗报告生成方法,其中使用语义为基础的多视角对比学习医学报告生成框架来学习病变的语义表示,进一步提出领域转移网络来确保多视角报告生成模型在单视角输入下仍能取得良好的推理性能,同时通过跨模态一致性 - CT 图像中的多角度椎骨定位与识别
本文提出了一种多视角 CT 图像下的脊椎定位和识别方法,将三维问题转化为不同视图上的二维定位和识别任务,通过多视角对比学习和序列损失,能够准确地在 CT 图像中定位和识别脊椎,且超过了现有方法的表现。
- ICCV多模多视角行为视频应用于休闲全息
Replay 数据集是一组多视角、多模态的人类社交互动视频,可用于新视角合成、3D 重建、新视角声学合成、人体和面部分析以及生成模型训练,并提供了一个新视角合成的基准测试。
- SyMFM6D:针对多视角 6D 物体姿态估计的对称感知多方向融合
该论文介绍了一种新的对物体进行 6D 姿态估计的方法,其中使用了多视角深度网络、预定义关键点、实例语义分割等技术,特别考虑了对称物体的问题,相对于现有技术有很大的提升。
- 视图集扩散:从二维数据生成 (0-) 图像条件下的三维生成模型
借助 Viewset Diffusion 框架,可以从 2D 数据中训练图像条件化的 3D 生成模型,从而解决单视图 3D 重建中的歧义问题,并通过对多视图图像集的去噪扩展了 3D 真实数据的可用性,通过仅渲染 3 张图片,我们的模型可以执 - 使用穿孔的运动学胶带进行人脊柱运动捕捉
本文介绍了一种基于标记的多视角脊柱跟踪方法,特别适用于体育运动中所需的移动,用于脊柱形状的优化,通过线性规划和马尔可夫随机场进行三维推理,与现有技术相比,实验结果表明我们的系统具有高精度和标记密度,对遮挡也比较鲁棒,能够捕捉快速运动。
- 一种联合估计无人机深度和深度不确定性的技术
本文介绍了如何增强 M4Depth,一种用于自主飞行器深度估计的最新方法,以执行深度和不确定性估计,该方法通过将 M4Depth 生成的视差不确定性估计转换为深度不确定性估计,并表明它的性能优于标准的概率方法,并且与现有的多视角深度估计方法 - 基于外观的多视角凝视估计旋转约束交叉视图特征融合
提出了一种多视角注视估计任务并跨视图特征融合的方法,通过使用相对旋转矩阵来训练网络提取可旋转的特征表示,并自适应地通过堆叠的融合模块融合这些特征,显著提高了模型在未见头部姿势下的泛化性能。
- ACLAD-KD: 基于属性的知识蒸馏用于语言模型压缩
本文提出了一种基于 Integrated Gradients 的新颖的归因驱动知识蒸馏方法,它探索了教师模型背后的 token-level 解释,并将知识转移给学生模型,进一步探索了多视角归因蒸馏。实验证明我们的方法在 GLUE 基准测试中 - 基于循环置信传播的大规模高效纹理映射算法
本文提出了一种使用多视图文理映射算法的框架,采用循环置信传播算法进行高效全局概率推断,使得纹理融合和混合在面级别上变为可能,并且此算法比现有算法更加快捷、鲁棒性更高
- CVPRRGB 序列递增式 3D 语义场景图预测
本论文提出一种实时框架,使用 RGB 图像序列增量构建一致的三维语义场景图,包括新颖的增量实体估计流水线和场景图预测网络,使用多视角和几何特征,通过迭代信息传递估计三维语义场景图。经过在 3RScan 数据集上大量实验证明,该方法在这项挑战 - ViewFormer: 多视角三维形状理解的视图集合注意力
本研究为多视角三维形状识别和检索提出了 ViewFormer 方法,该方法通过提出 “视角集” 视角,采用一种自适应的注意力模型来捕捉视图集中的元素之间的成对和高阶相关性,并将学习到的多视角相关性聚合到一个富有表达力的视角集描述符中进行识别