ORacle:大规模视觉语言模型用于知识引导的整体领域建模
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个Surgical-VQA数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
Jun, 2022
通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战,我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net,展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。
Dec, 2023
通过使用TriTemp-OR框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。
Apr, 2024
介绍了Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉-语言模型,通过引入VP-LoRA模块和TIT模块,能够在手术背景下理解复杂的视觉-语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。
Mar, 2024
使用配对的CT扫描、电子健康记录数据和放射学报告,我们训练了一种3D VLM模型(Merlin),并在多个任务类型和个别任务上评估了其性能。
Jun, 2024
通过视频进行手术场景感知对于推动机器人手术、远程手术和AI辅助手术至关重要,特别是在眼科领域。然而,缺乏多样化且注释丰富的视频数据集妨碍了智能系统在手术工作流分析方面的发展。为了填补这一空白,我们引入了OphNet,一个大规模的,由专家注释的眼科手术工作流理解视频基准。OphNet具有包含2,278个手术视频的多样化收藏,涵盖了66种白内障、青光眼和角膜手术,对102个独特的手术阶段和150个细粒度操作进行了详细注释。此外,OphNet提供了每个手术、阶段和操作的顺序和层次注释,可以全面理解和提高可解释性。此外,OphNet提供了时间定位注释,有助于手术工作流中的时间定位和预测任务。OphNet的手术视频总共约有205小时,比现有最大的手术工作流分析基准大约20倍。我们的数据集和代码已经在https://github.com/minghu0830/OphNet-benchmark上开放获取。
Jun, 2024
本研究针对外科领域中高质量标注数据稀缺的问题,提出了一种名为SurgicaL-CD的新方法,该方法利用一致性提炼扩散技术在没有配对数据的情况下生成逼真的手术图像。研究表明,SurgicaL-CD在生成图像的质量和作为下游训练数据集的效用方面,超越了现有的生成对抗网络(GANs)和扩散模型,为计算机辅助外科系统的开发提供了新的研究方向。
Aug, 2024
本研究解决了手术图像数据中的几何领域迁移问题,首次分析了当面对几何超出分布数据时,先进语义分割模型的表现。通过提出一种名为“器官移植”的增强技术,研究显示其在RGB和高光谱数据上的性能提升分别达到67%和90%,为改善手术场景分割的通用性提供了有效工具。
Aug, 2024
本研究评估了大语言模型(LLMs)和视觉语言模型(VLMs)在胃肠病学中的医学推理表现,解决了现有模型在视觉数据整合方面的挑战。研究发现,尽管LLMs在医学推理中具有较高的零-shot性能,但VLM在处理图像相关问题时表现不佳,特别是在使用模型生成的图像描述时。该研究为模型配置的优化和模型类型的选择提供了重要的指导。
Aug, 2024