手术-LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

Mar, 2024

手术-LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery

Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang...

TL;DR介绍了Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉-语言模型，通过引入VP-LoRA模块和TIT模块，能够在手术背景下理解复杂的视觉-语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Abstract

Recent advancements in surgical visual question answering (Surgical-VQA) and related region grounding have shown great promise for robotic and medical applications, addressing the critical need for automated meth

发现论文，激发创造

Surgical-VQA: 使用Transformer解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个Surgical-VQA数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

SurgicalGPT: 外科视觉问答的端到端语言-视觉生成预训练模型

本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割2018、CholecTriplet2021和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Apr, 2023

Surgical-VQLA: 用门控视觉语言嵌入的变换器进行机器人手术中的视觉问题定位回答

本文提出一种在机器人手术场景中定位特定手术区域的视觉问答系统，使用门控视觉语言嵌入（GVLE）和语言视觉变压器（LViT）来进行异构模态的融合和回答的预测，GVLE在实现语言-视觉嵌入方面表现出优异的性能，并与现有基准相比速度更快，并通过添加检测头来实现本地化的回答预测。

May, 2023

视觉问答机器人手术中采用共同关注门控视觉语言嵌入的本地化回答

本研究提出了一种基于端到端Transformer与协同注意力门控视觉-语言嵌入的外科手术场景中可定位答案的视觉问答系统，该方法不需要通过检测模型进行特征提取，并建立在数据高效图像Transformer模块、并行分类器和检测器之上，该方法在公共手术视频实验上的结果表明了与现有技术的优越性。

Jul, 2023

OmniMedVQA：医学LVLM的新大规模综合评估基准

我们介绍了OmniMedVQA，一个来自75个不同医疗数据集的医疗视觉问答基准，其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

PitVQA: 基于图像引导的文本嵌入LLM用于垂体手术的视觉问答

本文提出了PitVQA和PitVQA-Net，通过图像和文本信息的联合嵌入和上下文表示，解决了对内窥镜垂体手术领域中复杂的问答任务的挑战，并在PitVQA和EndoVis18-VQA数据集上取得了显著性能改进。

May, 2024

外科VQLA++：用于机器人手术的对抗性对比学习的标定鲁棒视觉问题定位回答

本研究针对外科视觉问答（VQA）模型无法准确指示与特定问题相关的视觉区域的问题，提出了外科视觉问题定位回答（VQLA）方法，以实现对外科图像的精确和上下文相关的响应。通过引入校准共注意力门控视觉-语言（C²G-ViL）嵌入以及对抗样本对比学习策略，显著提升了模型的鲁棒性和性能，为外科教育、病人护理和外科结果的改善提供了有效工具。

Aug, 2024

LLaVA-Surg：通过结构化外科视频学习迈向多模态外科助手

本研究针对现有外科视频缺乏理解与对话能力的问题，提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA，并采用两阶段问答生成管道，显著提高了外科视频的多模态对话能力。研究成果表明，LLaVA-Surg在开放式外科视频问答任务中，性能明显超越之前的模型，显示出卓越的多模态对话能力。

Aug, 2024

超越炒作：对医疗场景中的视觉语言模型的冷静分析

本研究针对大型视觉语言模型（LVLMs）在医疗领域的评估不足问题，提出了RadVUQA，一个新的放射学视觉理解与问答基准，以全面评估现有的LVLMs。研究发现，无论是通用LVLMs还是医疗特定的LVLMs，在多模态理解和定量推理上均存在显著缺陷，显示出与临床实际之间的巨大差距，强调了开发更强大智能LVLMs的迫切需求。

Aug, 2024

外科场景理解的手术-LLaVA：利用大型语言和视觉模型

本研究解决了当前较少关注手术场景的语言视觉模型的局限性，提出了一种专门设计的外科场景大语言视觉模型Surgical-LLaVA。该模型通过结合手术图像和视频的视觉表示与语言特征空间，展示了在手术背景下令人印象深刻的多模态聊天能力，且在复杂手术场景中表现出优越的性能。

Oct, 2024