SurGen:用于外科手术视频生成的文本引导扩散模型
基于级联的视频扩散模型,Imagen Video是一种文本有条件的视频生成系统,它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型,具有高度的可控性和世界知识,包括生成各种艺术风格的多样化视频和文本动画以及3D对象理解。
Oct, 2022
通过扩散生成模型,我们提出了一种直观的方法来从短文本提示生成合成的腹腔镜图像,采用最先进的文本到图像架构,在图像引导手术领域,特别是腹腔镜和机器人辅助手术方面,得到了依靠合成图像数据和虚拟手术训练方法的强力帮助。
Dec, 2023
该研究介绍了一种创新方法,通过整合空时视频转换器和先进的2D视觉模型先验,显式地建模视频生成过程中的空时动态,生成模拟临床内窥镜场景的医学视频,并在内窥镜模拟领域创造了首个公共基准,表现出卓越的视觉质量和多视角一致性,为临床内窥镜研究中的生成性人工智能部署提供了突破。
Mar, 2024
通过生成逼真且多样化的医学2D和3D图像,基于指令的文本导向潜在扩散模型MediSyn为算法的训练和研究提供了一个丰富且尊重隐私的资源,并通过已建立的指标展示了在医学图像和视频综合中以文本提示为导向的显著改进。
May, 2024
通过使用扩散模型结合零样本视频扩散方法,通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频,本研究在提高培训过程中迈出了重要一步,评估了生成的图像的保真度和事实正确性,获得了FID指标为38.097和F1-score指标为0.71。
Apr, 2024
Bora利用Transformer架构,基于文本导向的生物医学视频生成的首个时空扩散概率模型,经验证可以生成符合医学专家标准的高质量视频数据,适用于医疗咨询、决策以及沟通,增强过程规划和培训,并在多种医疗模态下展示了优于现有模型的性能。
Jul, 2024
本研究解决了医学领域因患者隐私及医生标注工作量大而导致的标注数据集稀缺问题。提出的SurgicaL-CD方法,通过一致性蒸馏扩散,能够在无配对数据的情况下生成高质量的手术图像,并在多个数据集上展现了优于GAN和传统扩散方法的表现。这一成果为计算机辅助手术系统的训练提供了新的思路和可能性。
Aug, 2024
本研究针对外科领域中高质量标注数据稀缺的问题,提出了一种名为SurgicaL-CD的新方法,该方法利用一致性提炼扩散技术在没有配对数据的情况下生成逼真的手术图像。研究表明,SurgicaL-CD在生成图像的质量和作为下游训练数据集的效用方面,超越了现有的生成对抗网络(GANs)和扩散模型,为计算机辅助外科系统的开发提供了新的研究方向。
Aug, 2024
本研究针对外科手术视频生成领域,提出了SurGen,一个文本引导的扩散模型,解决了现有模型在分辨率和视频时长方面的不足。通过使用标准的图像和视频生成评估指标,验证了输出的视觉和时间质量。研究结果表明,扩散模型具有作为外科培训工具的潜力。
Aug, 2024
本研究针对现有外科手术视频语言模型的不足,提出了一种名为VidLPRO的新型视频语言预训练框架,旨在更全面地捕捉视频与语言之间的复杂时间动态。该框架通过结合视频文本对比学习、视频文本匹配和掩蔽语言建模等目标,取得了在零-shot外科阶段识别中的领先表现,显著超越了现有模型,展示了其作为外科视频理解基础模型的潜力。
Sep, 2024