手术文本到图像生成

Jul, 2024

Surgical Text-to-Image Generation

Chinedu Innocent Nwoye, Rupak Bose, Kareem Elgohary, Lorenzo Arboit, Giorgio Carlino...

TL;DR通过对文本到图像生成模型在手术领域进行深入分析，利用包含手术动作三元组标注的手术图像数据集，进行了手术数据生成研究，以解决手术数据采集成本高、实践和伦理约束的问题，研究结果表明基于三元组标注的文本输入有助于区分手术动作，通过设计基于工具的类平衡技术，解决了手术数据的不平衡和倾斜问题，开发了一种能够从三元组文本提示中生成逼真的手术图像的模型，通过多种评估指标验证了该模型在质量、对齐性、推理能力、知识和鲁棒性等方面的有效性，为手术数据收集提供了一种真实的替代方案。

Abstract

Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we conduct an in-depth analysis on adapting

发现论文，激发创造

使用视觉-语言模型的可提示手术器械分割

该研究提出了一种新颖的文本可提示的手术器械分割方法，利用预训练的图像和文本编码器作为模型骨干，其中包含注意力和卷积的提示方案，以及增强图像特征的部分，以提高手术器械分割性能。

Jun, 2023

手术行为三元组检测：通过混合监督学习仪器-组织相互作用

本研究提出了一种基于多类仪器感知变换交互图的两阶段网络MCIT-IG，通过将目标的嵌入作为额外特征来减少三元组错误关联的风险，并构建了一个二分动态图来建模仪器和目标之间的交互，进而提高了手术动作三元组检测的性能。该模型在CholecT50数据集上的表现优于其他手术仪器定位和三元组检测方法，在MICCAI 2022的CholecTriplet挑战中排名第一。

Jul, 2023

通过观看数百个手术视频讲座学习多模态表示

该研究使用手术视频讲座来进行多模态表示学习，通过自动生成的文本转录来解决手术视频中的语言挑战，提出了一种新的对齐视频和文本嵌入的方法 SurgVLP，并介绍了一些用于手术的视觉与语言任务作为评估标准。

Jul, 2023

航行合成领域：利用扩散模型进行腹腔镜文本到图像生成

通过扩散生成模型，我们提出了一种直观的方法来从短文本提示生成合成的腹腔镜图像，采用最先进的文本到图像架构，在图像引导手术领域，特别是腹腔镜和机器人辅助手术方面，得到了依靠合成图像数据和虚拟手术训练方法的强力帮助。

Dec, 2023

HecVL：零样本手术阶段识别的分层视频语言预训练

通过使用自然语言实现手术模型的普适性训练，本研究提出了一种名为HecVL的新型分层视频-文本预训练方法，其中通过构建层次化的视频-文本配对数据集，通过剪辑级、阶段级和视频级的文本信息学习了多模态嵌入空间，并使用对比学习的框架进行训练，使模型能够实现零样本手术阶段识别，并且在不同手术程序和医疗中心之间实现了模型的迁移。

May, 2024

通过扩散模型进行手术三元组识别

在本文中，我们提出了DiffTriplet，一种利用扩散模型的新的生成性手术三元组识别框架，通过迭代去噪来预测手术三元组。我们的Diffusion框架提出了两种独特的设计来解决三元组关联的挑战，即关联学习和关联引导。实验证明，我们的方法在手术三元组识别方面取得了卓越的性能，达到了最新的最先进水平。

Jun, 2024

手术图像生成：利用潜在一致性扩散模型进行非配对图像转换

本研究解决了医学领域因患者隐私及医生标注工作量大而导致的标注数据集稀缺问题。提出的SurgicaL-CD方法，通过一致性蒸馏扩散，能够在无配对数据的情况下生成高质量的手术图像，并在多个数据集上展现了优于GAN和传统扩散方法的表现。这一成果为计算机辅助手术系统的训练提供了新的思路和可能性。

Aug, 2024

手术图像的生成：使用潜在一致性扩散模型进行非配对图像转换

本研究针对外科领域中高质量标注数据稀缺的问题，提出了一种名为SurgicaL-CD的新方法，该方法利用一致性提炼扩散技术在没有配对数据的情况下生成逼真的手术图像。研究表明，SurgicaL-CD在生成图像的质量和作为下游训练数据集的效用方面，超越了现有的生成对抗网络（GANs）和扩散模型，为计算机辅助外科系统的开发提供了新的研究方向。

Aug, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

本研究针对外科手术视频生成领域，提出了SurGen，一个文本引导的扩散模型，解决了现有模型在分辨率和视频时长方面的不足。通过使用标准的图像和视频生成评估指标，验证了输出的视觉和时间质量。研究结果表明，扩散模型具有作为外科培训工具的潜力。

Aug, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

本研究解决了外科手术视频生成中缺乏真实感和交互性的挑战，提出了一种新的文本引导扩散模型SurGen。该模型能够生成最高分辨率和最长时长的手术视频，验证了其在视觉和时间质量上的优越性，为外科医师培训提供了有潜力的教育工具。

Aug, 2024