SurGen：用于外科手术视频生成的文本引导扩散模型

Aug, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

SurGen: Text-Guided Diffusion Model for Surgical Video Generation

Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Rohan Shad...

TL;DR本研究解决了外科手术视频生成中缺乏真实感和交互性的挑战，提出了一种新的文本引导扩散模型SurGen。该模型能够生成最高分辨率和最长时长的手术视频，验证了其在视觉和时间质量上的优越性，为外科医师培训提供了有潜力的教育工具。

Abstract

Diffusion-based Video Generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving Surgical

发现论文，激发创造

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及3D对象理解。

Oct, 2022

航行合成领域：利用扩散模型进行腹腔镜文本到图像生成

通过扩散生成模型，我们提出了一种直观的方法来从短文本提示生成合成的腹腔镜图像，采用最先进的文本到图像架构，在图像引导手术领域，特别是腹腔镜和机器人辅助手术方面，得到了依靠合成图像数据和虚拟手术训练方法的强力帮助。

Dec, 2023

Endora: 视频生成模型作为内窥镜模拟器

该研究介绍了一种创新方法，通过整合空时视频转换器和先进的2D视觉模型先验，显式地建模视频生成过程中的空时动态，生成模拟临床内窥镜场景的医学视频，并在内窥镜模拟领域创造了首个公共基准，表现出卓越的视觉质量和多视角一致性，为临床内窥镜研究中的生成性人工智能部署提供了突破。

Mar, 2024

MediSyn: 用于广泛医学2D和3D图像合成的文本引导扩散模型

通过生成逼真且多样化的医学2D和3D图像，基于指令的文本导向潜在扩散模型MediSyn为算法的训练和研究提供了一个丰富且尊重隐私的资源，并通过已建立的指标展示了在医学图像和视频综合中以文本提示为导向的显著改进。

May, 2024

扩散模型的交互式生成腹腔镜视频

通过使用扩散模型结合零样本视频扩散方法，通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频，本研究在提高培训过程中迈出了重要一步，评估了生成的图像的保真度和事实正确性，获得了FID指标为38.097和F1-score指标为0.71。

Apr, 2024

Bora：生物医学综合视频生成模型

Bora利用Transformer架构，基于文本导向的生物医学视频生成的首个时空扩散概率模型，经验证可以生成符合医学专家标准的高质量视频数据，适用于医疗咨询、决策以及沟通，增强过程规划和培训，并在多种医疗模态下展示了优于现有模型的性能。

Jul, 2024

手术图像生成：利用潜在一致性扩散模型进行非配对图像转换

本研究解决了医学领域因患者隐私及医生标注工作量大而导致的标注数据集稀缺问题。提出的SurgicaL-CD方法，通过一致性蒸馏扩散，能够在无配对数据的情况下生成高质量的手术图像，并在多个数据集上展现了优于GAN和传统扩散方法的表现。这一成果为计算机辅助手术系统的训练提供了新的思路和可能性。

Aug, 2024

手术图像的生成：使用潜在一致性扩散模型进行非配对图像转换

本研究针对外科领域中高质量标注数据稀缺的问题，提出了一种名为SurgicaL-CD的新方法，该方法利用一致性提炼扩散技术在没有配对数据的情况下生成逼真的手术图像。研究表明，SurgicaL-CD在生成图像的质量和作为下游训练数据集的效用方面，超越了现有的生成对抗网络（GANs）和扩散模型，为计算机辅助外科系统的开发提供了新的研究方向。

Aug, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

本研究针对外科手术视频生成领域，提出了SurGen，一个文本引导的扩散模型，解决了现有模型在分辨率和视频时长方面的不足。通过使用标准的图像和视频生成评估指标，验证了输出的视觉和时间质量。研究结果表明，扩散模型具有作为外科培训工具的潜力。

Aug, 2024

VidLPRO：一种用于机器人和腹腔镜手术的视频语言预训练框架

本研究针对现有外科手术视频语言模型的不足，提出了一种名为VidLPRO的新型视频语言预训练框架，旨在更全面地捕捉视频与语言之间的复杂时间动态。该框架通过结合视频文本对比学习、视频文本匹配和掩蔽语言建模等目标，取得了在零-shot外科阶段识别中的领先表现，显著超越了现有模型，展示了其作为外科视频理解基础模型的潜力。

Sep, 2024