基于模型的 QUILT-1M 病理学数据集清洗用于文本条件图像合成
通过从 YouTube 等多种资源中收集图像和文本,我们构建了一个大规模的视觉语言数据集 Quilt-1M,其中共包含 100 万个成对的图像和文本样本,这是到目前为止规模最大的组织学图像和文本数据集,并通过微调预训练的 CLIP 模型在 13 个 diverse patch-level 数据集和跨模态检索任务中优于最先进的模型。
Jun, 2023
通过 Quilt-Instruct 数据集和 Quilt-LLaVA 模型,本研究提出了一种能够在全幅切片图像中进行诊断推理和空间感知的多模态组织病理学问答系统。该模型在多个公共组织病理数据集上表现出比 SOTA 模型高出超过 10% 的性能。
Dec, 2023
AI 与时尚设计的融合已成为一个前景光明的研究领域,本论文提出了首个 Fashion-Diffusion 数据集,该数据集包含超过一百万高质量的时尚图片和详细的文本描述,并提供了多个用于评估时尚设计模型性能的数据集,推动了 AI 驱动的时尚设计领域的标准化和未来研究的进展。
Nov, 2023
本研究介绍了 PathLDM,这是一种专为生成高质量组织病理学图像而设计的首个文本条件潜在扩散模型。通过利用病理学文本报告所提供的丰富语境信息,结合图像和文本数据,通过 GPT 的能力进行复杂文本报告的提炼和总结,我们实现了在 TCGA-BRCA 数据集上文本到图像生成方面的 SoTA FID 得分为 7.64,显著优于最接近的文本条件竞争对手的 30.1 的 FID 得分。
Sep, 2023
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像 - 文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024
利用联接图像和文本嵌入(CITE)方法改进病理图像分类,通过注入来自在广泛的生物医学文本中预训练的语言模型所获取的文本见解,使基础模型适应病理图像理解,并在 PatchGastric 胃肿瘤病理图像数据集上取得了领先的性能。
Jul, 2023
通过细粒度的图像 - 文本对齐和解剖病理提示,我们提出了一种新颖的医学图像合成模型,能够生成高度详细和准确的合成医学图像,我们验证了我们的方法在公共胸部 X 光数据集上的优越性,并展示了我们的合成图像保留准确的语义信息,对各种医学应用具有价值。
Mar, 2024
研究了医学图像中操纵内容的侦测问题,提出了一个大型数据集 M3Dsynth,并展示了该数据集对于训练侦测器在各种情况下具有良好的泛化能力。
Sep, 2023
人工智能基于图像分析在诊断组织病理学方面,尤其是癌症诊断方面具有巨大潜力。为了开发监督式人工智能方法,需要大规模的注释数据集。本研究提出了一种从自动提取的图像特征中构建结构化文本提示的方法。通过在提示中引入图像特征而不仅仅是正常和癌症标签,我们改善了 Fréchet Inception Distance (FID) 的性能,从 178.8 提升到 90.2。我们还表明,病理学家难以检测到合成图像,敏感性 / 特异性的中位数为 0.55/0.55。最后,我们展示了合成数据有效地训练人工智能模型。
Dec, 2023
使用粗略匹配的文本作为引导,本研究介绍了一种新颖的基于文本的风格生成方法,通过两阶段的生成对抗网络生成与细化图像风格,并通过实验证实了该方法的有效性和实际应用价值。
Sep, 2023