May, 2023

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

TL;DR本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统,使用门控视觉语言嵌入(GVLE)和语言视觉变压器(LViT)来进行异构模态的融合和回答的预测,GVLE在实现语言-视觉嵌入方面表现出优异的性能,并与现有基准相比速度更快,并通过添加检测头来实现本地化的回答预测。