Apr, 2024
手术室场景图生成的时间动态三模态融合
Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms
Diandian Guo, Manxi Lin, Jialun Pei, He Tang, Yueming Jin...
TL;DR通过使用 TriTemp-OR 框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。