Apr, 2023
SurgicalGPT: 外科视觉问答的端到端语言-视觉生成预训练模型
SurgicalGPT: End-to-End Language-Vision GPT for Visual Question
Answering in Surgery
TL;DR本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割2018、CholecTriplet2021和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。