SurgicalGPT: 外科视觉问答的端到端语言-视觉生成预训练模型

Apr, 2023

SurgicalGPT: 外科视觉问答的端到端语言-视觉生成预训练模型

SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery

Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan, Hongliang Ren

TL;DR本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割2018、CholecTriplet2021和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Abstract

Advances in gpt-based large language models (LLMs) are revolutionizing natural language processing, exponentially increasing its use across various domains. Incorporating uni-directional attention, these autoregressive LLMs can generate long and coherent paragraphs. However, for

发现论文，激发创造

Surgical-VQA: 使用Transformer解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个Surgical-VQA数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE在实现语言-视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端Transformer与协同注意力门控视觉-语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像Transformer模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

利用场景图知识推进手术视觉问答

通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战，我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net，展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。

Dec, 2023

融合领域适应视觉和语言模型的医学视觉问答

通过在医学领域中使用大型视觉和语言模型，在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后，提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能，整体准确率为87.5%，并在另一个MedVQA数据集VQA-RAD上展现了强大的性能，整体准确率为73.2%。

Apr, 2024

手术-LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

介绍了Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉-语言模型，通过引入VP-LoRA模块和TIT模块，能够在手术背景下理解复杂的视觉-语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Mar, 2024

PitVQA: 基于图像引导的文本嵌入LLM用于垂体手术的视觉问答

本文提出了PitVQA和PitVQA-Net，通过图像和文本信息的联合嵌入和上下文表示，解决了对内窥镜垂体手术领域中复杂的问答任务的挑战，并在PitVQA和EndoVis18-VQA数据集上取得了显著性能改进。

May, 2024

外科VQLA++：用于机器人手术的对抗性对比学习的标定鲁棒视觉问题定位回答

本研究针对外科视觉问答（VQA）模型无法准确指示与特定问题相关的视觉区域的问题，提出了外科视觉问题定位回答（VQLA）方法，以实现对外科图像的精确和上下文相关的响应。通过引入校准共注意力门控视觉-语言（C²G-ViL）嵌入以及对抗样本对比学习策略，显著提升了模型的鲁棒性和性能，为外科教育、病人护理和外科结果的改善提供了有效工具。

Aug, 2024

LLaVA-Surg：通过结构化外科视频学习迈向多模态外科助手

本研究针对现有外科视频缺乏理解与对话能力的问题，提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA，并采用两阶段问答生成管道，显著提高了外科视频的多模态对话能力。研究成果表明，LLaVA-Surg在开放式外科视频问答任务中，性能明显超越之前的模型，显示出卓越的多模态对话能力。

Aug, 2024

外科场景理解的手术-LLaVA：利用大型语言和视觉模型

本研究解决了当前较少关注手术场景的语言视觉模型的局限性，提出了一种专门设计的外科场景大语言视觉模型Surgical-LLaVA。该模型通过结合手术图像和视频的视觉表示与语言特征空间，展示了在手术背景下令人印象深刻的多模态聊天能力，且在复杂手术场景中表现出优越的性能。

Oct, 2024