Jul, 2023

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

TL;DR本研究提出了一种基于端到端 Transformer 与协同注意力门控视觉 - 语言嵌入的外科手术场景中可定位答案的视觉问答系统,该方法不需要通过检测模型进行特征提取,并建立在数据高效图像 Transformer 模块、并行分类器和检测器之上,该方法在公共手术视频实验上的结果表明了与现有技术的优越性。