Bora：生物医学综合视频生成模型

Jul, 2024

Bora: Biomedical Generalist Video Generation Model

Weixiang Sun, Xiaocao You, Ruizhe Zheng, Zhengqing Yuan, Xiang Li...

TL;DRBora利用Transformer架构，基于文本导向的生物医学视频生成的首个时空扩散概率模型，经验证可以生成符合医学专家标准的高质量视频数据，适用于医疗咨询、决策以及沟通，增强过程规划和培训，并在多种医疗模态下展示了优于现有模型的性能。

Abstract

generative models hold promise for revolutionizing medical education, robot-assisted surgery, and data augmentation for medical AI development. Diffusion models can now generate realistic images from text prompts

发现论文，激发创造

BiomedGPT：一种统一和综合的生物医学生成式预训练Transformer，可用于视觉、语言和多模态任务

本文介绍了一种统一且通用的生物医学生成式预训练转换器（BiomedGPT）模型，利用自监督方法在大量和多样化的数据集上进行训练，可接受多模式输入并执行多种下游任务，在20个公共数据集上表现优于先前绝大多数最先进模型，涵盖了15种独特的生物医学模式。通过实验展示了我们的多模式和多任务预训练方法将知识转移应用于先前未曾见过的数据的有效性。总的来说，本研究在开发生物医学统一通用模型方面迈出了重要的一步，对于改善医疗保健结果具有深远的影响。

May, 2023

医学影像生成人工智能：扩展MONAI框架

最近在生成AI方面取得的突破已经在多个领域，包括医学成像方面，取得了令人难以置信的进展。我们提出了MONAI生成模型，这是一个开放源代码的平台，可以帮助研究人员和开发人员轻松训练、评估和部署生成模型及相关应用。

Jul, 2023

BiomedJourney: 通过多模态患者行程的指导学习生成反事实的生物医学图像

通过对多模态患者病例的指导学习，BiomedJourney 提供了一种新方法，可用于生成反事实的生物医学图像，以帮助疾病进展建模和稳健图像解释。

Oct, 2023

航行合成领域：利用扩散模型进行腹腔镜文本到图像生成

通过扩散生成模型，我们提出了一种直观的方法来从短文本提示生成合成的腹腔镜图像，采用最先进的文本到图像架构，在图像引导手术领域，特别是腹腔镜和机器人辅助手术方面，得到了依靠合成图像数据和虚拟手术训练方法的强力帮助。

Dec, 2023

Endora: 视频生成模型作为内窥镜模拟器

该研究介绍了一种创新方法，通过整合空时视频转换器和先进的2D视觉模型先验，显式地建模视频生成过程中的空时动态，生成模拟临床内窥镜场景的医学视频，并在内窥镜模拟领域创造了首个公共基准，表现出卓越的视觉质量和多视角一致性，为临床内窥镜研究中的生成性人工智能部署提供了突破。

Mar, 2024

MediSyn: 用于广泛医学2D和3D图像合成的文本引导扩散模型

通过生成逼真且多样化的医学2D和3D图像，基于指令的文本导向潜在扩散模型MediSyn为算法的训练和研究提供了一个丰富且尊重隐私的资源，并通过已建立的指标展示了在医学图像和视频综合中以文本提示为导向的显著改进。

May, 2024

医疗视觉通才：在背景下统一医学图像任务

本研究介绍了医学视觉通用模型（MVG），它是第一个能够在统一的图像生成框架内处理各种医学图像任务的基础模型，包括跨模态合成、图像分割、降噪和修复等。通过将这些任务作为图像生成过程，在参考图像-标签对和输入图像的条件下实现灵活统一各种任务的方法，并结合蒙版图像建模和自回归训练的混合方法，以获得最稳健的性能。我们建立了第一个全面的通用医学视觉基准，涵盖了13个数据集和四种成像模态（CT、MRI、X光和微超声），结果表明MVG具有优异的性能，在各种医学成像任务中表现优于现有的视觉通用模型，并且MVG在更多样化任务的训练下表现出可扩展性强，甚至在只有少量特定任务样本的情况下也能适应未见过的数据集。

Jun, 2024

扩散模型的交互式生成腹腔镜视频

通过使用扩散模型结合零样本视频扩散方法，通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频，本研究在提高培训过程中迈出了重要一步，评估了生成的图像的保真度和事实正确性，获得了FID指标为38.097和F1-score指标为0.71。

Apr, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

本研究针对外科手术视频生成领域，提出了SurGen，一个文本引导的扩散模型，解决了现有模型在分辨率和视频时长方面的不足。通过使用标准的图像和视频生成评估指标，验证了输出的视觉和时间质量。研究结果表明，扩散模型具有作为外科培训工具的潜力。

Aug, 2024

SurGen：用于外科手术视频生成的文本引导扩散模型

本研究解决了外科手术视频生成中缺乏真实感和交互性的挑战，提出了一种新的文本引导扩散模型SurGen。该模型能够生成最高分辨率和最长时长的手术视频，验证了其在视觉和时间质量上的优越性，为外科医师培训提供了有潜力的教育工具。

Aug, 2024