Apr, 2024

手术室场景图生成的时间动态三模态融合

TL;DR通过使用 TriTemp-OR 框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。