Apr, 2023

SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型

TL;DR本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。