Feb, 2024

S^2Former-OR:单阶段双模态变压器用于目标剧情生成

TL;DR本研究介绍了一种新颖的单阶段双模态变压器框架用于手术室中的场景图生成,名为 S^2Former-OR,旨在以端到端的方式辅助利用多视角的 2D 场景和 3D 点云进行场景图生成。通过引入视图同步转运方案促进多视角视觉信息交互,设计几何视觉凝聚操作将 2D 语义特征与 3D 点云特征进行整合,基于增广特征,提出了一种新颖的关系敏感变压器解码器,嵌入动态实体对查询和关系特征先验,实现了无需中间步骤直接预测实体对关系的图生成。通过广泛的实验证明了 S^2Former-OR 在 4D 手术室基准测试中具有卓越的场景图生成性能和较低的计算成本,与当前 OR-SGG 方法相比,例如提高了 3%的精度并减少了 24.2M 的模型参数。我们进一步将我们的方法与更广泛指标的通用单阶段 SGG 方法进行了全面评估,始终获得更好的性能。代码将提供。