ORacle：大规模视觉语言模型用于知识引导的整体领域建模

Apr, 2024

ORacle：大规模视觉语言模型用于知识引导的整体领域建模

ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling

Ege Özsoy, Chantal Pellegrini, Matthias Keicher, Nassir Navab

TL;DRORacle是一种先进的视觉语言模型，用于整体手术室领域建模，通过多视图和时序能力，结合外部知识进行推理，适应以前未见过的外科手术场景，并展示了提高手术室领域建模可扩展性和可负担性的潜力。

Abstract

Every day, countless surgeries are performed worldwide, each within the distinct settings of operating rooms (ORs) that vary not only in their setups but also in the personnel, tools, and equipment used. This inh

发现论文，激发创造

Surgical-VQA: 使用Transformer解决手术场景中的视觉问答问题

我们设计了一个基于医学图像的手术问答系统，使用视觉和文本转换模型，并通过两个Surgical-VQA数据集验证了所提出的方法，结合分类和基于句子的答案以回答关于手术程序的问卷调查。

Jun, 2022

利用场景图知识推进手术视觉问答

通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战，我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net，展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。

Dec, 2023

手术场景的潜在图表示优化及零样本领域转移

通过多中心性能基准测试，我们研究了面向未见域泛化的以目标为中心的方法，确定了关键的性能因素，并提出了一种优化方法，明显优于现有方法。

Mar, 2024

手术室场景图生成的时间动态三模态融合

通过使用TriTemp-OR框架，整合图像、点云和语言三种模态，结合时间动态，并借助大规模语言模型，实现对手术场景的综合理解，以预测关系并生成场景图。

Apr, 2024

手术-LVLM：学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答

介绍了Surgical-LVLM，这是一种专为复杂手术场景定制的个性化大型视觉-语言模型，通过引入VP-LoRA模块和TIT模块，能够在手术背景下理解复杂的视觉-语言任务，并在多个基准测试中展现了出色的性能，为自动化手术辅导领域做出了贡献。

Mar, 2024

魔灵：一种用于三维计算机断层扫描的视觉语言基础模型

使用配对的CT扫描、电子健康记录数据和放射学报告，我们训练了一种3D VLM模型（Merlin），并在多个任务类型和个别任务上评估了其性能。

Jun, 2024

OphNet：眼科手术工作流程理解的大规模视频基准

通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要，特别是在眼科领域。然而，缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白，我们引入了OphNet，一个大规模的，由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏，涵盖了66种白内障、青光眼和角膜手术，对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外，OphNet提供了每个手术、阶段和操作的顺序和层次注释，可以全面理解和提高可解释性。此外，OphNet提供了时间定位注释，有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时，比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。

Jun, 2024

手术图像的生成：使用潜在一致性扩散模型进行非配对图像转换

本研究针对外科领域中高质量标注数据稀缺的问题，提出了一种名为SurgicaL-CD的新方法，该方法利用一致性提炼扩散技术在没有配对数据的情况下生成逼真的手术图像。研究表明，SurgicaL-CD在生成图像的质量和作为下游训练数据集的效用方面，超越了现有的生成对抗网络（GANs）和扩散模型，为计算机辅助外科系统的开发提供了新的研究方向。

Aug, 2024

手术RGB和高光谱图像语义分割中的几何领域转变处理

本研究解决了手术图像数据中的几何领域迁移问题，首次分析了当面对几何超出分布数据时，先进语义分割模型的表现。通过提出一种名为“器官移植”的增强技术，研究显示其在RGB和高光谱数据上的性能提升分别达到67%和90%，为改善手术场景分割的通用性提供了有效工具。

Aug, 2024

胃肠病学中的视觉-语言和大语言模型表现：GPT、Claude、Llama、Phi、Mistral、Gemma和量化模型

本研究评估了大语言模型（LLMs）和视觉语言模型（VLMs）在胃肠病学中的医学推理表现，解决了现有模型在视觉数据整合方面的挑战。研究发现，尽管LLMs在医学推理中具有较高的零-shot性能，但VLM在处理图像相关问题时表现不佳，特别是在使用模型生成的图像描述时。该研究为模型配置的优化和模型类型的选择提供了重要的指导。

Aug, 2024