基于多模态视觉语言的人类病理学基础人工智能助手
本文提出了 PathAsst,一种生成式 AI 助手,利用了 ChatGPT/GPT-4 和 Vicuna-13B 语言模型与 CLIP 视觉编码器,对 142K 高质量病理图像文本对进行了训练。结果表明,利用这种 AI 模型可以改善病理诊断和治疗过程。
May, 2023
CONCH 是一个基于多种来源的组织病理学图像、生物医学文本和 117 万图像标题对的视觉语言基础模型,可在涉及组织病理学图像和文本的各种下游任务中实现最先进的性能,为机器学习基于工作流程提供极少或无需进一步监督微调的可能性。
Jul, 2023
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像 - 文本对和病理学中的领域特定知识。我们首次构建了包含 50,470 个有信息量的属性、涵盖 32 种人体组织下的 4,718 种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉 - 语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med),该助手能回答有关生物医学图像的开放性研究问题,并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。
Jun, 2023
本研究论文旨在探讨是否可以培养出一个 AI 病理学家,以通过美国病理学委员会认证考试,在此目标下,研究第一步是创造一个视觉问答数据集,本文将尝试构建一个病理 VQA 数据集,用自然语言处理等方法从病理学教科书和在线数字库中提取病理图像和标题,并生成问答对,最终收集了 32,799 个来自 4,998 个病理图像的开放性问题,这是公开发布的第一个用于病理学 VQA 的数据集。
Mar, 2020
该研究提出了一种适用于医学图像的注释免费病理定位 (AFLoc) 的通用视觉语言预训练模型,通过多层语义结构对齐医学报告中的多粒度医学概念与丰富图像特征,以适应观察到的和新出现的不同病理表达方式,验证了其在复杂临床环境中的适用性。
Jan, 2024
人工智能(AI)在大规模数字化临床数据集上训练系统以提高健康结果方面具有巨大潜力。计算病理学作为对诊断和生物标志物具有重大影响的大量显微镜图像数据,处于这一发展的前沿。百亿像素病理学切片由于其巨大的尺寸而面临独特挑战,通常被分成数万个较小的瓷砖进行分析。我们提出了一种新方法,通过在内存中全面高分辨率地同时训练瓷砖编码器和整个切片聚合器来解决这个问题,弥合了输入和切片级监督之间的差距。虽然计算成本更高,但详细的定量验证显示了病理基础模型的大规模预训练的前景。
Mar, 2024
使用自监督学习方法,创建了 Virchow 计算病理学的 632 百万参数深度神经网络基础模型,以解决病理学任务中缺乏数据的挑战,并在病理图像分类、癌症检测和亚型、生物标志物预测等多个任务中表现出色,显示了预训练在病理学图像数据集上的重要性和潜力。
Sep, 2023
我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估,实验充分评估了 GPT-4V 在使用包括 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣的对象(如脑、肝脏、肺等)的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明,目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外,我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征,突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。
Oct, 2023